自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 idea如何去掉modifer 'public' is reduntant for interface methods提示

最近使用idea做一个web项目,(以前都是用myeclipse)发现在接口中的方法前加修饰符public会出现modifer 'public' is reduntant for interface methods,这是因为Java默认接口的方法是public和abstract的,使用修饰符都会出现“冗余警告提示”。解决方法是要么就不写,把public去掉;要么就改下Inspections,下...

2019-11-27 10:48:39 1409

原创 贝叶斯网络(概率图模型)

概率图模型分为贝叶斯网络和马尔可夫两大类。其中贝叶斯网络是一个有向无环图结构,而马尔可夫是一个无向图结构。本文只讲解贝叶斯网络,马尔可夫会在后面的博客进行讲解。在开始之前需要复习下概率论的一些公式:乘法法则:链式法则:放个例子帮助理解链式法则,当n=4时,上面的例子为:证明,根据乘法法则有:所以由上面3个式子,可推出:另外,还有一个有向...

2019-09-20 13:02:22 5607

原创 Attention注意力机制

Seq2Seq在开始Attention之前,我们先简单回顾一下Seq2Seq模型,传统的机器翻译基本都是基于Seq2Seq模型来做的,该模型分为encoder层与decoder层,并均为RNN或RNN的变体构成,如下图所示在encode阶段,第一个节点输入一个词,之后的节点输入的是下一个词与前一个节点的hidden state,最终encoder会输出一个上下文向量c(context),...

2019-06-25 23:58:54 1181

原创 Beam Search集束搜索

在Seq2Seq解码部分中,常用到Beam Search。每个时刻它会保存b(beam size)个概率最大的选择作为当前的最佳选择,然后解码下一时刻时,继续选择和之前保存的b个选择组合起来后的概率最大的b个选择,依次循环迭代下去,直到编码结束。下面直接上图:在机器翻译中:法语输入:Jane visite l’Afrique en septembre.人工翻译:Jane vis...

2019-06-14 02:09:48 1351

原创 Seq2Seq模型

在自然语言处理的很多应用中,输入和输出都可以是不固定长度的序列。以机器翻译为例,例如:法语输入:Jane visite l’Afrique en septembre.(长度5)英语输出:Jane is visiting Africa in September.(长度6)Seq2Seq就是处理这种输入和输出不固定长度问题的模型,全称Sequence to Sequenc...

2019-06-13 16:51:28 465

原创 Batch Normalization原理

神经网络训练过程的本质是学习数据的分布,如果训练数据与测试数据的分布不同将大大降低网络的泛化能力;如果某些训练数据的每批batch数据分布也不同,则也大大消耗训练的时间从而使训练变得低效和复杂。随着网络的进行,每个隐层的参数变化使得后一层的输入发生变化,从而每一批训练数据的分布也随之改变,致使网络在每次迭代中都需要拟合不同的数据分布,增大训练的复杂度和过拟合的风险。举个例子,比如6个mi...

2019-06-11 20:37:27 196

原创 Softmax和关于它的交叉熵损失函数详细求导过程

首先,先看什么是Softmax?Softmax用于多分类中,将多个输入,映射为多个输出,且输出值都位于(0,1)之间,j假设向量,则Softmax(a)如下:而要了解Softmax函数的导数,还需要知道什么是雅克比矩阵:雅可比矩阵是一阶偏导数以一定方式排列成的矩阵。若是一个从n维欧氏空间映射到到m维欧氏空间的函数,即,则f(x)对x的偏导数可以组成一个m*n(m行n列)的矩阵...

2019-06-09 02:02:10 1084

原创 CNN(卷积神经网络)在自然语言处理中的应用

本文参考自Convolutional Neural Networks for Sentence Classification,结尾处放上传送门。用传统方法进行文本分类任务时,通常将一篇文档所对应的tf-idf 向量作为模型的特征输入。但是这样做会有一个弊端,就是这样的tf-idf 表示实际上丢失了输入的文本序列中单词的顺序。而CNN对文本数据建模时,输入变长的字符串,然后通过滑动窗口加池化的方...

2019-06-02 13:00:02 5526

原创 理解LSTM和GRU

LSTM,全称(Long Short Term Memory ,LSTM)长短期记忆网络。由于传统RNN有梯度消失和爆炸的问题,在反向传播时,梯度最终的结果会趋势0或无穷,引发严重的数值问题,从而参数得不到更新,学习能力有限,在实际任务中的效果往往不到人们所想的效果和需求。所以LSTM出现了。LSTM可以对有价值的信息进行长期记忆,从而减小循环神经网络的学习难度,从而应用在语音识别,命名主...

2019-06-01 21:51:05 5228

原创 Bleu浅析

Bleu 全称为 bilingual evaluation understudy ,意为双语评估替换,是衡量一个有多个正确输出结果的模型的精确度的评估指标。下面拿中英机器翻译做例子:中文:垫上有一只老鼠。参考翻译1:The cat is on the mat.参考翻译1:There is a cat on the mat.MT:the cat the cat onthe ma...

2019-05-29 13:11:57 3411

原创 TF-IDF浅析

TF:Term Frequency(词频),是衡量一个term(词语)在所在文档中出现的频率。TF(t) = (t出现在⽂档中的次数) / (⽂档中的词语总数).IDF:Inverse Document Frequency(逆文本频率指数),是衡量一个term在所有文档中的重要程度,可以理解为权重IDF(t) = log(⽂档总数+1 / 含有t的⽂档总数+1)+1.(这里+1是...

2019-04-29 18:43:20 327

原创 Rnn的原理

循环神经网络Rnn是干什么的:普通的神经网络只能处理单一时刻的数据,而要处理序列化的数据时,即前后数据相关联时,就要用到Rnn.例如,音频的语音识别, 文字的机器翻译,视频行为识别,文本情感分析,命名实体识别等。举个命名实体识别的例子:1北京东面有什么好玩的地方 2在京东买东西,一天就能到家,经过rnn模型计算后,1的实体为北京,2的实体为京东;即根据前后文关系,例子1中的京东就不会被识别...

2019-03-12 17:10:39 509

原创 pyplot.scatter 属性linewidths 表示散点边缘线的大小

测试代码:import numpy as npimport matplotlib.pyplot as plt#产生测试数据x = np.arange(1,10)y = xfig = plt.figure()ax1 = fig.add_subplot(111)#设置标题ax1.set_title('Scatter Plot')#设置X轴标签plt.xla...

2018-05-11 16:25:50 11980 2

Hands on ML with SKlearn and TensorFlow.zip

Hands on Machine Learning with Scikit-learn and TensorFlow

2019-06-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除