深度学习6 -- LSTM/GRU

最新推荐文章于 2025-03-26 11:41:35 发布

矮人三等

最新推荐文章于 2025-03-26 11:41:35 发布

阅读量322

点赞数

分类专栏： # 算法原理文章标签：深度学习 lstm gru

本文链接：https://blog.csdn.net/Lian_Ge_Blog/article/details/129264835

版权

10 篇文章

订阅专栏

文章介绍了LSTM如何解决RNN的长距离依赖问题，LSTM通过添加额外的c状态来保存长期信息，以克服梯度消失。LSTM的结构包括输入门、前向计算等，虽然复杂但能有效处理序列数据。此外，GRU作为LSTM的简化版，也能达到相近的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

在上一篇种介绍的循环神经网络，由于其只计算前一项和后一项距离较短，所以很难处理长距离依赖场景，所以本文将介绍一种改进之后的循环神经网络：长短时记忆网络(Long Short Term Memory Network, LSTM)，它成功的解决了原始循环神经网络的缺陷，成为当前最流行的RNN，在语音识别、图片描述、自然语言处理等许多领域中成功应用。但是个人理解的时候发现结构还是比较复杂的，所以部分公式不理解的地方会有标注，以后自己手动实现的时候会继续补充。

我们就可以看到，从上图的t-3时刻开始，梯度已经几乎减少到0了。那么，从这个时刻开始再往之前走，得到的梯度（几乎为零）就不会对最终的梯度值有任何贡献，这就相当于无论t-3时刻之前的网络状态h是什么，在训练中都不会对权重数组W的更新产生影响，也就是网络事实上已经忽略了t-3时刻之前的状态。这就是原始RNN无法处理长距离依赖的原因