NNDL 作业10:第六章课后题(LSTM | GRU)

目录

习题6-3  当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.

习题6-4 推导LSTM网络中参数的梯度,并分析其避免梯度消失的效果​编辑 

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果 

附加题 6-1P 什么时候应该用GRU? 什么时候用LSTM? 

附加题 6-2P LSTM BP推导,并用Numpy实现 

总结 


习题6-3  当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.


 公式6.50:h_{t}=h_{t-1}+g(x_{t},h_{t-1};\Theta )
令 z_{k}=Uh_{k-1}+Wx_{k}+b为在第k时刻函数g(·)的输入,在计算公式6.34中的误差项  \delta _{t,k}=\frac{\partial L_{t}}{\partial z_{k}}时,梯度可能过大,从而导致梯度过大问题。
解决方法:使用长短期记忆神经网络。 

习题6-4 推导LSTM网络中参数的梯度,并分析其避免梯度消失的效果​编辑 

LSTM结构图: 

 

  • 遗忘门f_{t}:控制上一个隐藏状态要遗忘多少信息
  • 输入门i_{t}:当前状态的候选状态有多少信息需要保存
  • 输出门o_{t}:当前隐藏状态有多少需要输出给外部状态

 

 

LSTM 中梯度的传播有很多条路径,但C_{t}=C_{t-1}f_{t}+a_{t}i_{t}这条路径上只有逐元素相乘和相加的操作,梯度流最稳定;但是其他路径上梯度流与普通 RNN 类似,照样会发生相同的权重矩阵反复连乘。

由于总的远距离梯度 = 各条路径的远距离梯度之和,即便其他远距离路径梯度消失了,只要保证有一条远距离路径(就是上面说的那条高速公路)梯度不消失,总的远距离梯度就不会消失(正常梯度 + 消失梯度 = 正常梯度)。因此 LSTM 通过改善一条路径上的梯度问题拯救了总体的远距离梯度。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值