神经网络与深度学习作业10：（LSTM | GRU）

captainMo_11

于 2022-11-28 22:03:18 发布

阅读量1k

点赞数 1

文章标签：深度学习神经网络 lstm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61190124/article/details/128087156

版权

这篇博客探讨了循环神经网络中梯度爆炸的问题，重点分析了LSTM和GRU如何通过门控机制避免梯度消失。作者推导了LSTM和GRU的参数梯度，指出LSTM的遗忘门、输入门和输出门有助于梯度的稳定传递。GRU则通过update gate实现类似效果。此外，文章还讨论了LSTM和GRU的选择场景，指出GRU在大数据量下训练速度更快。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时，分析其可能存在梯度爆炸的原因并给出解决办法.

公式(6.50)为： $h_{t}=h_{t-1}+g(x_{t},h_{t-1};\Theta )$

在计算误差项时，可能会出现梯度过大的情况，解决办法为：使用长短期神经网络。

习题6-4推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

其中E EE为损失函数，由于LSTM中通过门控机制解决梯度问题，遗忘门，输入门和输出门是非0就是1的，并且三者之间都是相加关系，梯度能够很好的在LSTM传递，减轻了梯度消失发生的概率，门为0时，上一刻的信息对当前时刻无影响，没必要接受传递更新参数了。

习题6-5推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

分析：

把LSTM的input gate和forget gate整合成一个update gate，也是通过gate机制来控制梯度：

可以通过控制来控制梯度。

附加题 6-1P 什么时候应该用GRU? 什么时候用LSTM?

概括的来说，LSTM和GRU都能通过各种Gate将重要特征保留，保证其在long-term 传播的时候也不会被丢失。

结果对比1

可以看出，标准LSTM和GRU的差别并不大，但是都比tanh要明显好很多，所以在选择标准LSTM或者GRU的时候还要看具体的任务是什么。
使用LSTM的原因之一是解决RNN Deep Network的Gradient错误累积太多，以至于Gradient归零或者成为无穷大，所以无法继续进行优化的问题。GRU的构造更简单：比LSTM少一个gate，这样就少几个矩阵乘法。在训练数据很大的情况下GRU能节省很多时间。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。