lstm 损失降不下去_CS224N笔记(七)：梯度消失、LSTM与GRU

最新推荐文章于 2024-06-18 11:41:02 发布

蒙霄阳

最新推荐文章于 2024-06-18 11:41:02 发布

阅读量2.4k

点赞数

文章标签： lstm 损失降不下去

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42160376/article/details/112071222

版权

本文探讨了RNN中的梯度消失和梯度爆炸问题，以及解决这些问题的LSTM和GRU模型。梯度消失导致远程信息无法有效捕获，而梯度爆炸可通过梯度裁剪解决。LSTM通过门控机制存储长期信息，GRU则是LSTM的简化版本。延伸部分提到，梯度消失问题在深度神经网络中也存在，ResNet和DenseNet等模型通过特殊连接设计改善信息流动。

摘要由CSDN通过智能技术生成

这一讲主要研究RNN中梯度消失以及梯度爆炸问题，以及为解决梯度消失而设计的RNN模型的变种如LSTM，GRU等模型。

梯度消失

RNN理论上是可以捕捉较早的历史信息，但是由于Vanishing Gradient的问题会导致远程信息无法有效的被捕捉到。

RNN的输入、输出及hidden state的关系有如下的公式表示：

并且其损失函数为

所以损失函数相对于W的梯度为

其中

假设矩阵W的最大的本征值也小于1，则t-k越大即其相距越远，其梯度会呈指数级衰减，这一问题被称作vanishing gradient梯度消失，它导致我们无法分辨t时刻与k时刻究竟是数据本身毫无关联还是由于梯度消失而导致我们无法捕捉到这一关联。这就导致了我们只能学习到近程的关系而不能学习到远程的关系，会影响很多语言处理问题的准确度。</

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lstm 损失降不下去_CS224N笔记(七)：梯度消失、LSTM与GRU

这一讲主要研究RNN中梯度消失以及梯度爆炸问题，以及为解决梯度消失而设计的RNN模型的变种如LSTM，GRU等模型。梯度消失RNN理论上是可以捕捉较早的历史信息，但是由于Vanishing Gradient的问题会导致远程信息无法有效的被捕捉到。RNN的输入、输出及hidden state的关系有如下的公式表示：并且其损失函数为所以损失函数相对于W的梯度为其中假设矩阵W的最大的本征值也小...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。