![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
RNN
杨晓茹
这个作者很懒,什么都没留下…
展开
-
LSTM与梯度消失
1. 标准RNN中处理序列数据的方法是将上一个state的信息传到下一个state中,表示成数学公式为st=f(W*(st-1,xt)+b),其中f为激活函数。在反向传播中,根据求导的链式法则,这种形式求得的梯度为一个矩阵W与激活函数导数的乘积。如果进行n次反向传播,梯度变化将会变为(W*f”)的n次方累乘。 (1)如果乘积大于1,则梯度会随着反向传播层数n的增加而成指数增长,导致梯度爆炸; ...原创 2018-08-14 13:31:57 · 4659 阅读 · 0 评论 -
word2vec中的subsampling和negative sampling
实现word2vec的skip-gram神经网络训练模型中,通过一个矩阵将输入的n维向量转化为m维向量,考虑到模型输入层和输出层的权重,会产生m*n*2个权重,一般词汇表长度n很大,name调整修正这么多权重使训练速度降低,同时需要大量的训练数据来调整权重防止过拟合,这样又增加了这个网络训练的复杂性。为了解决这个问题,Word2vec的作者又提出了三种方法: 1. 把常用的词组作为一个单词,例如...原创 2018-08-14 20:18:22 · 2126 阅读 · 0 评论 -
RNN标准模型及其变种
1.概念:RNN又名循环神经网络,是一类处理序列数据的神经网络,这个序列数据不只包括时间序列,还有文字序列等,即序列数据中后面的数据与前面的数据有关系 2.结构: 如上图所示,左边为RNN折叠图,右边为展开图。与基础的神经网络相比,RNN的不同之处在于在隐层之间的神经元之间也建立了权连接,随着序列的不断推进,隐层的前部将会通过W权连接影响到后部。 3.特点 (1)能够处理序列化数据,隐...原创 2018-08-12 10:46:55 · 4517 阅读 · 0 评论 -
标准RNN的推导
1.RNN前向计算:对于如下结构,x是输入,s为隐层,o为输出,U,W,V为不同层的权值,同一类型的权连接权值相同 则ot可表示为 其中,g,f为输出层,隐层的激活函数,f一般选择tanh函数,若RNN用于分类的话,g选择softmax函数 2.RNN反向传播:BPTT算法,本质还是BP算法,因为RNN处理序列数据,所以在原有基础上增加了序列维度反向传播。BPTT的中心思想与BP算法...原创 2018-08-12 14:51:00 · 3641 阅读 · 1 评论 -
LSTM与GRU
很多博客已经详细讲述了lstm和gru的结构及公式,这里就不一一介绍了,参考下面链接,讲的挺详细 https://blog.csdn.net/gzj_1101/article/details/79376798 这篇文章主要讲自己对lstm与gru的区别及联系的理解。 在传统RNN中,由于反向传播过程中出现激活函数的累乘,容易造成梯度消失和梯度爆炸,这就造成在较长的time-steps下,后面...原创 2018-08-13 16:04:35 · 6707 阅读 · 2 评论 -
word embedding理解
word embedding:NLP语言模型中对单词处理的一种方式,这种技术会把单词或者短语映射到一个n维的数值化向量,核心就是一种映射关系,主要分为两种方式: 1.one hot encoding:对语料库中的每个单词都用一个n维的one hot向量表示,其中n为语料库中不同单词的个数。这种方法的原理是把语料库中的不同单词排成一列,对于单词A,它在语料库中的位置为k,则它的向量表示为第k位为1...原创 2018-08-13 20:43:22 · 12771 阅读 · 0 评论 -
Beam Search理解
beam search:在test的过程中生成几段序列的方式,通常用于机器翻译或看图说话中。 beam search 中有一个重要的参数:beam size = k,表示最后生成的得分最高的前k个序列 在看图说话或机器翻译中,最后生成的句子中的每个单词肯定是训练集所产生语料库中的单词,采用全局搜索,空间太大,效果提升并不明显。 beam search的原理(下面用一个例子简单描述) 在te...原创 2018-08-13 21:46:03 · 1134 阅读 · 0 评论