NNDL 作业10：第六章课后题（LSTM | GRU）

最新推荐文章于 2022-11-29 00:59:45 发布

白小码i

最新推荐文章于 2022-11-29 00:59:45 发布

阅读量257

点赞数 2

文章标签： lstm gru 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52551768/article/details/128064565

版权

目录

习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法.

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

附加题6-1P 什么时候应该用GRU?什么时候用LSTM?（选做）

习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决方法.

若使用 $z_k=Uh_{k-1}+Wx_k+b$ 作为 k 时刻 g(·) 的输入，那么在对其求导时， $h_t$ 与 $h_{t-1}$ 的权重系数就会超过1.

为了解决这些问题，可以通过引入门控来进一步改进模型。

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

附加题6-1P 什么时候应该用GRU?什么时候用LSTM?（选做）

两者的区别：GRU 中缺少的 LSTM 单元的一个功能是内存内容的受控暴露。在 LSTM 单元中，网络中其他单元看到或使用的内存内容量由输出门控制。另一方面，GRU 在没有任何控制的情况下公开其全部内容。另一个区别在于输入的位置门，或相应的复位门。LSTM 单元计算新的内存内容，而无需单独控制从前一个时间步长流出的信息量。相反，LSTM 单元独立于遗忘门控制添加到存储单元的新内存内容的数量。另一方面，GRU 在计算新的候选激活时控制来自先前激活的信息流，但不独立控制添加的候选激活量（控制通过更新门绑定）

1. LSTM利用输出门（output gate）可以选择性的使用细胞状态（细胞状态），而GRU总是不加选择的使用细胞状态

2. LSTM利用更新门（update gate）可以独立控制加入多少新的“记忆”，与老“记忆”无关，而GRU对新“记忆”的加入会受老“记忆”的约束，老“记忆”留存越多新“记忆”加入越少。
单从模型的角度分析，参数更复杂的LSTM具有更好的flexibility同时过拟合risk也更高

GRU的优点是其模型的简单性，因此更适用于构建较大的网络。它只有两个门控，从计算角度看，它的效率更高，它的可扩展性有利于构筑较大的模型；但是LSTM更加的强大和灵活，因为它具有三个门控。 LSTM是经过历史检验的方法。

最后一个选做题看了别人推导过程也没看太懂......

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
NNDL 作业10：第六章课后题（LSTM | GRU）

NNDL 作业10：第六章课后题（LSTM | GRU）
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。