NNDL 作业10：第六章课后题（LSTM | GRU）

zc.9495

于 2022-11-29 13:01:14 发布

阅读量82

点赞数 1

文章标签： lstm gru 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vvhvj/article/details/128095629

版权

该博客探讨了循环神经网络在使用公式(6.50)时可能遇到的梯度爆炸问题，并提出了通过引入门控机制如LSTM和GRU来解决。LSTM和GRU的梯度分析表明它们能有效缓解梯度消失，GRU因其简洁性和效率适用于大规模模型，而LSTM则因更强大的灵活性适合复杂任务。附加题讨论了在不同场景下选择GRU或LSTM的考量因素。

摘要由CSDN通过智能技术生成

习题6-3当使用公式(6.50)作为循环神经网络的状态更新公式时，分析其可能存在梯度爆炸的原因并给出解决方法。

公式(6.50)为 :
在这里插入图片描述
若使用zk = Uhk-1 + Wxk + b 作为k时刻g(·)的输入，那么在对其求导时，ht与ht-1的权重系数就会超过1.

为了解决这些问题，可以通过引入门控来进一步改进模型。

习题6-4 推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

在这里插入图片描述

习题6-5 推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

在这里插入图片描述

GRU有调节信息流动的门单元，但没有一个单独的记忆单元，GRU将输入门和遗忘门整合成一个门，通过门控制梯度。

附加题6-1P 什么时候应该用GRU?什么时候用LSTM?（选做）

LSTM利用输出门（output gate）可以选择性的使用细胞状态（cell state），而GRU总是不加选择的使用细胞状态
LSTM利用更新门（update gate）可以独立控制加入多少新的“记忆”，与老“记忆”无关，而GRU对新“记忆”的加入会受老“记忆”的约束，老“记忆”留存越多新“记忆”加入越少。
GRU的优点是其模型的简单性，因此更适用于构建较大的网络。它只有两个门控，从计算角度看，它的效率更高，它的可扩展性有利于构筑较大的模型；但是LSTM更加的强大和灵活，因为它具有三个门控。 LSTM是经过历史检验的方法

总结：这次作业，有一些推导过程不太清楚，参考其他资料后，还是有些不懂的地方，下来还要慢慢理解。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。