LSTM如何解决RNN带来的梯度消失问题

最新推荐文章于 2025-03-01 23:26:44 发布

谓之小一

最新推荐文章于 2025-03-01 23:26:44 发布

阅读量3k

点赞数 2

分类专栏：深度学习文章标签：深度学习 rnn lstm

本文链接：https://blog.csdn.net/XiaoYi_Eric/article/details/105751692

版权

本文深入探讨了RNN的梯度消失问题及其原因，并详细解释了LSTM如何通过其门控结构有效地防止梯度消失，尽管不能完全避免梯度爆炸，但相较于RNN，LSTM出现这种情况的概率较低。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本篇文章参考于 RNN梯度消失和爆炸的原因、Towser关于LSTM如何来避免梯度弥散和梯度爆炸？的问题解答、Why LSTMs Stop Your Gradients From Vanishing: A View from the Backwards Pass。

看本篇文章之前，建议自行学习RNN和LSTM的前向和反向传播过程，学习教程可参考刘建平老师博客循环神经网络(RNN)模型与前向反向传播算法、LSTM模型与前向反向传播算法。

具体了解LSTM如何解决RNN所带来的梯度消失问题之前，我们需要明白为什么RNN会带来梯度消失问题。

1. RNN梯度消失原因

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gkCzFmL2-1587802739286)(LSTM如何解决RNN带来的梯度消失问题/RNN.png)]
如上图所示，为RNN模型结构，前向传播过程包括，

隐藏状态： $h^{(t)} = \sigma (z^{(t)}) = \sigma(Ux^{(t)} + Wh^{(t-1)} + b)$ ，此处激活函数一般为 $t a n h$ 。
模型输出： $o^{(t)} = Vh^{(t)} + c$
预测输出： $\hat{y}^{(t)} = \sigma(o^{(t)})$ ，此处激活函数一般为softmax。
模型损失： $\sum_{t = 1}^{T} L^{(t)}$

RNN反向传播过程中，需要计算 $U, V, W$ 等参数的梯度，以 $W$ 的梯度表达式为例，
$\frac{\partial L}{\partial W} = \sum_{t = 1}^{T} \frac{\partial L}{\partial y^{(T)}} \frac{\partial y^{(T)}}{\partial o^{(T)}} \frac{\partial o^{(T)}}{\partial h^{(T)}} \frac{\partial h^{(T)}}{\partial h^{(t)}} \frac{\partial h^{(t)}}{\partial W}$

现在需要重点计算 $\frac{\partial h^{(T)}}{\partial h^{(t)}}$ 部分，展开得到，
$\frac{\partial h^{(T)}}{\partial h^{(t)}} = \frac{\partial h^{(T)}}{\partial h^{(T-1)}} \frac{\partial h^{(T - 1)}}{\partial h^{(T-2)}} ...\frac{\partial h^{(t+1)}}{\partial h^{(t)}} = \prod_{k=t + 1}^{T} \frac{\partial h^{(k)}}{\partial h^{(k - 1)}} = \prod_{k=t+1}^{T} tanh^{'}(z^{(k)}) W$

最低0.47元/天解锁文章