前言
在循环神经网络(RNN)模型与前向反向传播算法中,我们总结了对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long Short-Term Memory),它可以避免常规RNN的梯度消失,因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。
5.1
LSTM的前传
由于RNN梯度消失的问题,大牛们对于序列索引位置t的隐藏结构做了改进,可以说通过一些技巧让隐藏结构复杂了起来,来避免梯度消失的问题,这样的特殊RNN就是我们的LSTM。由于LSTM有很多的变种,这里我们以最常见的LSTM为例讲述。LSTM的结构如下图:
5.1.1 LSTM之细胞状态
上面我们给出了LSTM的模型结构,下面我们就一点点的剖析LSTM模型在每个序列索引位置t时刻的内部结构。
除了细胞状态,LSTM图中还有了很多奇怪的结构,这些结构一般称之为门控结构(Gate)。LSTM在在每个序列索引位置t的门一般包括遗忘门,输入门和输出门三种。下面我们就来研究上图中LSTM的遗忘门,输入门和输出门以及细胞状态。
5.1.2 LSTM之遗忘门
遗忘门(forget gate)顾名思义,是控制是否遗忘的,在LSTM中即以一定的概率控制是否遗忘上一层的隐藏细胞状态。遗忘门子结构如下图所示:
5.1.3 LSTM之输入门
输入门(input gate)负责管理当前序列位置的输入,它的子结构如下图:
5.1.4 LSTM之细胞状态更新
5.1.5 LSTM之输出门
5.1.6 LSTM前向传播算法
参考资料
https://www.cnblogs.com/sumwailiu/p/13623985.html
https://www.zhihu.com/question/34878706/answer/665429718
https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html
https://www.cnblogs.com/pinard/p/6519110.html
深度学习
TO BE CONTINUED
数学
文章作者: 中国电信研究院 | 刘心唯
文章内容系作者个人观点,不代表融智未来公众号的观点或立场。
往期 · 推荐
● 深度学习中的参数梯度推导(一)上篇
● 深度学习中的参数梯度推导(三)上篇
● 深度学习中的参数梯度推导(三)中篇
● 深度学习中的参数梯度推导(三)下篇
● 深度学习中的参数梯度推导(四):vanilla RNN的前传与反传
你们点点“分享”,给我充点儿电吧~