梯度消失与梯度爆炸

最新推荐文章于 2024-04-19 21:06:51 发布

hlang8160

最新推荐文章于 2024-04-19 21:06:51 发布

阅读量469

点赞数

分类专栏： NLP 文章标签：自然语言处理

NLP 专栏收录该内容

38 篇文章 4 订阅

订阅专栏

梯度消失的原因：

在多层网络中，影响梯度大小的因素主要有两个：权重和激活函数的偏导。深层的梯度是多个激活函数偏导乘积的形式来计算，如果这些激活函数的偏导比较小（小于1）或者为0，那么梯度随时间很容易vanishing；相反，如果这些激活函数的偏导比较大（大于1），那么梯度很有可能就会exploding。因而，梯度的计算和更新非常困难。

解决方案：

使用一个合适激活函数，它的梯度在一个合理的范围。LSTM使用gate function，有选择的让一部分信息通过。gate是由一个sigmoid单元和一个逐点乘积操作组成，sigmoid单元输出1或0，用来判断通过还是阻止，然后训练这些gate的组合。所以，当gate是打开的（梯度接近于1），梯度就不会vanish。并且sigmoid不超过1，那么梯度也不会explode。

&lt;img src="https://pic2.zhimg.com/50/v2-f093af62bd8ef9f9b31aa76c4948eb95_hd.png" data-rawwidth="168" data-rawheight="156" class="content_image" width="168"&gt;

LSTM的效果：

1、当gate是关闭的，那么就会阻止对当前信息的改变，这样以前的依赖信息就会被学到。

2、当gate是打开的时候，并不是完全替换之前的信息，而是在之前信息和现在信息之间做加权平均。所以，无论网络的深度有多深，输入序列有多长，只要gate是打开的，网络都会记住这些信息。

LSTM 与 Gradient Vanish

上面说到，LSTM 是为了解决 RNN 的 Gradient Vanish 的问题所提出的。关于 RNN 为什么会出现 Gradient Vanish，上面已经介绍的比较清楚了，本质原因就是因为矩阵高次幂导致的。下面简要解释一下为什么 LSTM 能有效避免 Gradient Vanish。

对于 LSTM，有如下公式

$c^t = f^t \odot c^{t-1} + i^t \odot g^t$

模仿 RNN，我们来计算 $\delta^{k-1} = {\partial C^t}/{\partial c^{k-1}}$ ，有

&lt;img src="https://pic4.zhimg.com/50/v2-8eb676e7c1bac3eb131d8e0bf2f7db5b_hd.png" data-rawwidth="147" data-rawheight="149" class="content_image" width="147"&gt;

公式里其余的项不重要，这里就用省略号代替了。可以看出当 f^t = 1 时，就算其余项很小，梯度仍然可以很好导到上一个时刻，此时即使层数较深也不会发生 Gradient Vanish 的问题；当 f^t = 0 时，即上一时刻的信号不影响到当前时刻，则梯度也不会回传回去； f^t 在这里也控制着梯度传导的衰减程度，与它 Forget Gate 的功能一致。