彻底看懂RNN，LSTM，GRU，用数学原理解释梯度消失或者梯度爆炸

最新推荐文章于 2025-03-29 16:46:21 发布

sherlock31415931

最新推荐文章于 2025-03-29 16:46:21 发布

阅读量2.3k

点赞数 4

分类专栏： ML 文章标签： lstm rnn 深度学习随机梯度下降神经网络

本文链接：https://blog.csdn.net/qq_50974223/article/details/115718525

版权

本文详细介绍了递归神经网络（RNN）、LSTM和GRU的工作原理，特别是LSTM的门控机制，以及如何通过门结构缓解梯度消失和梯度爆炸问题。此外，还讨论了Seq2Seq模型、注意力机制及其在现代深度学习中的应用和未来发展趋势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Recurrent Neutral Network

章节

RNN概述
LSTM
GRU
梯度困区
Seq2Seq模型
何去何从
模型之外

RNN概述

为什么它叫做递归神经网络呢？与其他网络有何不同？接下来用简单例子阐述：

这是比较简单的示意图，比如说一个网络只有一层，那么，那一层代表的函数方法就是这个网络实际对输入所起的作用，即Y = Funtion(X)，我们实际上想找出那个function它究竟是什么。

在这里插入图片描述

可以从下图看出，RNN得到一个输出不仅仅靠输入的X，同时还依赖于h，h在RNN中被叫做cell state，那么h如何得出呢？由公式（1）可知，h_t是由h_(t-1)经过某种函数变换得到的，换句话说，我要得到目前这一个的，我还必须经过前一个才能做到。这里我们可以类比一下斐波那契数列，f(t) = f(t-1) + f(t-2)，某一项需要由前两项一起才能完成，RNN是某一个h需要前面一个h来完成，这也是为什么被叫做递归神经网络。顺带一提，这里的function有权重参数，即为W,而这个W是共享的，意思是无论是h_1到h2还是h_2到h_3，它们用的function其实是一样的。
在这里插入图片描述