LSTM如何解决梯度消失与梯度爆炸_lstm怎么消除突变-CSDN博客

本文链接：https://blog.csdn.net/two_apples/article/details/105159085

在这里插入图片描述
这是一张经典的LSTM示意图，LSTM依靠 $f_t$ 、 $i_t$ 、 $o_t$ 来控制输入输出， $f_{t}=\sigma\left(W_{f} \cdot\left[h_{t-1}, x_{t}\right]+b_{f}\right)$ $i_{t}=\sigma\left(W_{i} \cdot\left[h_{t-1}, x_{t}\right]+b_{i}\right)$ $o_{t}=\sigma\left(W_{o}\left[h_{t-1}, x_{t}\right]+b_{o}\right)$
我们将其简化为： $f_{t}=\sigma\left(W_{f} X_{t}+b_{f}\right)$ $i_{t}=\sigma\left(W_{i} X_{t}+b_{i}\right)$ $o_{i}=\sigma\left(W_{o} X_{t}+b_{o}\right)$
当前的状态 $S_{t}=f_{t} S_{t-1}+i_{t} X_{t}$ 类似与传统RNN $S_{t}=W_{s} S_{t-1}+W_{x} X_{t}+b_{1}$ 。将LSTM的状态表达式展开后得： $S_{t}=\sigma\left(W_{f} X_{t}+b_{f}\right) S_{t-1}+\sigma\left(W_{i} X_{t}+b_{i}\right) X_{t}$ 如果加上激活函数 $S_{t}=\tanh \left[\sigma\left(W_{f} X_{t}+b_{f}\right) S_{t-1}+\sigma\left(W_{i} X_{t}+b_{i}\right) X_{t}\right]$ RNN梯度消失和爆炸的原因这篇文章中传统RNN求偏导的过程包含： $\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}=\prod_{j=k+1}^{t} \tanh ^{\prime} W_{s}$ 对于LSTM同样也包含这样的一项，但是在LSTM中： $\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}=\prod_{j=k+1}^{t} \tanh ^{\prime} \sigma\left(W_{f} X_{t}+b_{f}\right)$ 假设 $Z=\tanh ^{\prime}(x) \sigma(y)$ ，则 $Z$ 的函数图像如下图所示：

在这里插入图片描述
可以看到该函数值基本上不是0就是1。
传统RNN的求偏导过程： $\frac{\partial L_{3}}{\partial W_{s}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial S_{1}} \frac{\partial S_{1}}{\partial W_{s}}$
在LSTM中为： $\frac{\partial L_{3}}{\partial W_{s}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{2}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{1}}{\partial W_{s}}$
因为 $\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}=\prod_{j=k+1}^{t} \tanh ^{\prime} \sigma\left(W_{f} X_{t}+b_{f}\right) \approx 0 | 1$
这样就解决了传统RNN中梯度消失的问题。