![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
CharlesOyfz
这个作者很懒,什么都没留下…
展开
-
理解LSTM和GRU
LSTM,全称(Long Short Term Memory ,LSTM)长短期记忆网络。由于传统RNN有梯度消失和爆炸的问题,在反向传播时,梯度最终的结果会趋势0或无穷,引发严重的数值问题,从而参数得不到更新,学习能力有限,在实际任务中的效果往往不到人们所想的效果和需求。所以LSTM出现了。LSTM可以对有价值的信息进行长期记忆,从而减小循环神经网络的学习难度,从而应用在语音识别,命名主...原创 2019-06-01 21:51:05 · 5232 阅读 · 0 评论 -
CNN(卷积神经网络)在自然语言处理中的应用
本文参考自Convolutional Neural Networks for Sentence Classification,结尾处放上传送门。用传统方法进行文本分类任务时,通常将一篇文档所对应的tf-idf 向量作为模型的特征输入。但是这样做会有一个弊端,就是这样的tf-idf 表示实际上丢失了输入的文本序列中单词的顺序。而CNN对文本数据建模时,输入变长的字符串,然后通过滑动窗口加池化的方...原创 2019-06-02 13:00:02 · 5531 阅读 · 0 评论 -
Seq2Seq模型
在自然语言处理的很多应用中,输入和输出都可以是不固定长度的序列。以机器翻译为例,例如:法语输入:Jane visite l’Afrique en septembre.(长度5)英语输出:Jane is visiting Africa in September.(长度6)Seq2Seq就是处理这种输入和输出不固定长度问题的模型,全称Sequence to Sequenc...原创 2019-06-13 16:51:28 · 470 阅读 · 0 评论 -
Rnn的原理
循环神经网络Rnn是干什么的:普通的神经网络只能处理单一时刻的数据,而要处理序列化的数据时,即前后数据相关联时,就要用到Rnn.例如,音频的语音识别, 文字的机器翻译,视频行为识别,文本情感分析,命名实体识别等。举个命名实体识别的例子:1北京东面有什么好玩的地方 2在京东买东西,一天就能到家,经过rnn模型计算后,1的实体为北京,2的实体为京东;即根据前后文关系,例子1中的京东就不会被识别...原创 2019-03-12 17:10:39 · 515 阅读 · 0 评论 -
Beam Search集束搜索
在Seq2Seq解码部分中,常用到Beam Search。每个时刻它会保存b(beam size)个概率最大的选择作为当前的最佳选择,然后解码下一时刻时,继续选择和之前保存的b个选择组合起来后的概率最大的b个选择,依次循环迭代下去,直到编码结束。下面直接上图:在机器翻译中:法语输入:Jane visite l’Afrique en septembre.人工翻译:Jane vis...原创 2019-06-14 02:09:48 · 1352 阅读 · 0 评论 -
Softmax和关于它的交叉熵损失函数详细求导过程
首先,先看什么是Softmax?Softmax用于多分类中,将多个输入,映射为多个输出,且输出值都位于(0,1)之间,j假设向量,则Softmax(a)如下:而要了解Softmax函数的导数,还需要知道什么是雅克比矩阵:雅可比矩阵是一阶偏导数以一定方式排列成的矩阵。若是一个从n维欧氏空间映射到到m维欧氏空间的函数,即,则f(x)对x的偏导数可以组成一个m*n(m行n列)的矩阵...原创 2019-06-09 02:02:10 · 1088 阅读 · 0 评论 -
Batch Normalization原理
神经网络训练过程的本质是学习数据的分布,如果训练数据与测试数据的分布不同将大大降低网络的泛化能力;如果某些训练数据的每批batch数据分布也不同,则也大大消耗训练的时间从而使训练变得低效和复杂。随着网络的进行,每个隐层的参数变化使得后一层的输入发生变化,从而每一批训练数据的分布也随之改变,致使网络在每次迭代中都需要拟合不同的数据分布,增大训练的复杂度和过拟合的风险。举个例子,比如6个mi...原创 2019-06-11 20:37:27 · 199 阅读 · 0 评论 -
Attention注意力机制
Seq2Seq在开始Attention之前,我们先简单回顾一下Seq2Seq模型,传统的机器翻译基本都是基于Seq2Seq模型来做的,该模型分为encoder层与decoder层,并均为RNN或RNN的变体构成,如下图所示在encode阶段,第一个节点输入一个词,之后的节点输入的是下一个词与前一个节点的hidden state,最终encoder会输出一个上下文向量c(context),...原创 2019-06-25 23:58:54 · 1183 阅读 · 0 评论