NNDL 作业10：第六章课后题（LSTM | GRU）

Sun.02

于 2022-11-28 19:36:01 发布

阅读量134

点赞数 1

文章标签：梯度爆炸 LSTM GRU 循环神经网络梯度消失

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63172447/article/details/128074964

版权

目录

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时，分析其可能存在梯度爆炸的原因并给出解决办法.

习题6-4 推导LSTM网络中参数的梯度，并分析其避免梯度消失的效果编辑

习题6-5 推导GRU网络中参数的梯度，并分析其避免梯度消失的效果

附加题 6-1P 什么时候应该用GRU? 什么时候用LSTM?

附加题 6-2P LSTM BP推导，并用Numpy实现

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时，分析其可能存在梯度爆炸的原因并给出解决办法.

公式6.50： $h_{t}=h_{t-1}+g(x_{t},h_{t-1};\Theta )$
令 $z_{k}=Uh_{k-1}+Wx_{k}+b$ 为在第k时刻函数g(·)的输入，在计算公式6.34中的误差项 $\delta _{t,k}=\frac{\partial L_{t}}{\partial z_{k}}$ 时，梯度可能过大，从而导致梯度过大问题。
解决方法：使用长短期记忆神经网络。

习题6-4 推导LSTM网络中参数的梯度，并分析其避免梯度消失的效果编辑

LSTM结构图:

遗忘门 $f_{t}$ ：控制上一个隐藏状态要遗忘多少信息
输入门 $i_{t}$ ：当前状态的候选状态有多少信息需要保存
输出门 $o_{t}$ ：当前隐藏状态有多少需要输出给外部状态

LSTM 中梯度的传播有很多条路径，但 $C_{t}$ = $C_{t-1}$ ⨀ $f_{t}$ + $a_{t}$ ⨀ $i_{t}$ 这条路径上只有逐元素相乘和相加的操作，梯度流最稳定；但是其他路径上梯度流与普通 RNN 类似，照样会发生相同的权重矩阵反复连乘。

由于总的远距离梯度 = 各条路径的远距离梯度之和，即便其他远距离路径梯度消失了，只要保证有一条远距离路径（就是上面说的那条高速公路）梯度不消失，总的远距离梯度就不会消失（正常梯度 + 消失梯度 = 正常梯度）。因此 LSTM 通过改善一条路径上的梯度问题拯救了总体的远距离梯度。

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NNDL 作业10：第六章课后题（LSTM | GRU）

本次作业通过推导对 LSTM 、GRU有了进一步的了解，GRU参数更少，收敛更快；数据量很大时，LSTM效果会更好一些，因为LSTM参数也比GRU参数多一些。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。