lstm中look_back的大小选择_通俗易懂LSTMRNN的变种结构 | LSTM长短期记忆网络

戳上方蓝字【阿力阿哩哩的炼丹日常】关注我~

今天继续给大家介绍第四章的内容

前面我们介绍了:

深度学习开端-全连接神经网络

一文掌握CNN卷积神经网络

超参数(Hyperparameters)|  上

超参数(Hyperparameters)|  下

寄己训练寄己|自编码器

通熟易懂RNN|RNN与RNN的变种结构 | 上

4.6RNN与RNN的变种结构

这一节,笔者将给大家介绍深度学习的RNN循环神经网络(Recurrent Neural Networks)与RNN结构变种LSTM长短期记忆网络(Long-Short Term Memory Networks)和GRU门控循环单元(Gated Recurrent Neural Network)。

044.6.4 LSTM长短期记忆网络

笔者在4.6.3提过RNN结构共享1组(U, W, b),这是RNN结构最重要的特性,不过也是由于这个特性,才导致了LSTM长短期记忆网络的诞生。

因为 在(U, W, b)不变的情况下,梯度在反向传播过程中,不断连乘,数值不是越来越大就是越来越小,这样就出现了梯度爆炸或梯度消失的情况,所以往往用RNN去训练模型得不到预期的效果。

1. LSTM原理  

由上文可知,RNN结构之所以出现梯度爆炸或者梯度消失,最本质的原因是因为梯度在传递过程中存在极大数量的连乘,为此有人提出了LSTM模型,它可以对有价值的信息进行记忆,放弃冗余记忆,从而减小学习难度。

与RNN相比,LSTM的神经元还是基于输入X和上一级的隐藏层输出h来计算,只不过内部结构变了,也就是神经元的运算公式变了,而外部结构并没有任何变化,因此上面提及的RNN各种结构都能用LSTM来替换。

相对于RNN,LSTM的神经元加入了输入门i、遗忘门f、输出门o 和内部记忆单元c。笔者这里先给上一个整体的LSTM结构图如图 4.48所示,之后笔者再对它内部结构的运算逻辑进行详细的解释。

cae6c045dbb6041f577cb680963043f8.png

图 4.48 LSTM结构图

遗忘门f:控制输入X和上一层隐藏层输出h被遗忘的程度大小,如图 4.49所示。

12a6b8587e54936b81a9bcd19ba7e555.png

图 4.49 遗忘门(forget gate)

遗忘门公式如式(4.43):

b2cb04e1b68c8df9a00c18f45dc448a6.png

输入门 i:控制输入X和当前计算的状态更新到记忆单元的程度大小,如图 4.50所示。

fd4c7a263111cf3c72e1742fc3d2e8fd.png

图 4.50 输入门(input gate)

遗忘门公式如式(4.44):

f5fd0d895d4f0d1f9fd56fcc32b28235.png

内部记忆单元 c:

62df6a83ef28afcd1c116c7fbbd04c02.png

图 4.51 内部记忆单元

内部记忆单元公式如式(4.45)~(4.46):

501c2d7bbb332134861bbc5c88f60fe6.png

输出门 o:控制输入X和当前输出取决于当前记忆单元的程度大小,如图 4.52所示。

7d1a8c45a1c5e67dc74ff39731ce1123.png

图 4.52 输出门(output gate)

输出门公式如式(4.47)~(4.48):

3e91c66e1319bf72e6ec26812b00ff6a.png

其中σ一般选择Sigmoid作为激励函数,主要是起到门控作用。因为Sigmoid函数的输出为0~1,当输出接近0或1时,符合物理意义上的关与开。tanh函数作为生成候选记忆C的选项,因为其输出为-1~1,符合大多数场景下的0中心的特征分布,且梯度(求导)在接近0处,收敛速度比sigmoid函数要快,这也是选择它的另外一个原因。不过LSTM的激励函数也不是一成不变的,大家可以根据自己的需求去更改,只要能更好地解决自己的问题即可。

对于一个训练好的LSTM模型,我们要知道它的每一个门(遗忘门、输出门和输入门)都有各自的(U, W, b),上述公式也有所体现,这是在训练过程中得到的。而且当输入的序列不存在有用信息时,遗忘门f的值就会接近1,那么输入门i的值接近0,这样过去有用的信息就会被保存。当输入的序列存在重要信息时,遗忘门f的值就会接近0,那么输入门i的值接近1,此时LSTM模型遗忘过去的记忆,记录重要记忆。

因此我们可以看出由遗忘门、输出门、输入门和内部记忆单元共同控制LSTM输出h的设计,使得整个网络更好地把握序列信息之间的关系。

c94c3e29b80addb9fc54484792e73c92.png

下一期,我们将继续介绍

RNN与RNN的变种结构

敬请期待~

7b36e266f2314ca275523d95ee47a550.png

8d2f3e3f981ac9f4e32d909595ad5122.gif

关注我的微信公众号~不定期更新相关专业知识~

96586941a116fe40f419daf2160ab2d8.png

e1c0cd1a37d503b4bff0327827919bad.gif

内容 |阿力阿哩哩 

编辑 | 阿璃 

e7ea8f49d1fde4fcdabd497a1556613a.png点个“在看”,作者高产似那啥~ 810c18ea11786863c68fa4ff9794b0fd.gif
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值