详解梯度消失和梯度爆炸以及解决方案

最新推荐文章于 2023-04-21 10:41:55 发布

蓝色仙女

最新推荐文章于 2023-04-21 10:41:55 发布

阅读量421

点赞数

分类专栏：深度学习文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/weixin_37817275/article/details/118463848

版权

深度学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

产生原因

从深度网络角度理解梯度消失和爆炸产生的原因

以上图的三层神经网络为例，可以将其视为一个非线性多层复合函数 $f=f_3(f_2(f_1(x)))$

如果后层计算出的梯度大于1，经过层层传递，则梯度传到了前部则梯度会呈现指数增长，即梯度爆炸，
相反如果后层计算出的梯度小于1，则梯度传到了前部则梯度会呈现指数衰减，即梯度消失。

从激活函数角度理解梯度消失和爆炸产生的原因

Sigmoid函数的一阶导数是恒小于等于0.25的且在大部分取值范围内接近0，因此使用sigmoid激活函数很容易导致梯度消失，同理适用Tanh激活函数也很容易导致梯度消失。

梯度消失和爆炸产生的原因可以总结如下：

神经网络层数过深
使用Sigmoid和作为激活函数

解决方案

预训练加微调

此方法来自Hinton在2006年发表的一篇论文，Hinton为了解决梯度的问题，提出采取无监督逐层训练方法，其基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，此过程就是逐层“预训练”（pre-training）；在预训练完成后，再对整个网络进行“微调”（fine-tunning）。Hinton在训练深度信念网络（Deep Belief Networks中，使用了这个方法，在各层预训练完成后，再利用BP算法对整个网络进行训练。此思想相当于是先寻找局部最优，然后整合起来寻找全局最优，此方法有一定的好处，但是目前应用的不是很多了。

使用Batch Normalization解决梯度消失

详见本人关于Batch Normalization的博客，提出BN的原本表示通过实验证明了BN可以缓解梯度消失

使用Relu、LeakyRelu、elu等激活函数解决梯度消失

relu函数的导数在正数部分是恒等于1的，因此在深层网络中使用relu激活函数就不会导致梯度消失和爆炸的问题。
同时Relu也存在一些缺点：

由于负数部分恒为0，会导致一些神经元无法激活（可通过设置小学习率部分解决）
输出不是以0为中心的

LeakyRelu和elu是改进版的Relu，主要改进负数横为0的问题，同时包含Relu的所有优点

梯度剪切解决梯度爆炸

设置一个梯度剪切阈值，更新梯度的时候，如果梯度超过这个阈值，那么就将其强制限制在这个范围之内，以防止梯度爆炸。
具体可以用如下tensorflow代码实现

optimizer = tf.train.AdamOptimizer(learning_rate, beta1=0.5)
grads = optimizer.compute_gradients(cost)
for i, (g, v) in enumerate(grads):
    if g is not None:
        grads[i] = (tf.clip_by_norm(g, 5), v)  # clip gradients
train_op = optimizer.apply_gradients(grads)

此处将阈值设置为5

正则化解决梯度爆炸

在添加L1或者L2正则化后，当权重过大时，正则化损失也会增大，因此添加正则化可以解决梯度爆炸

残差网络

ResNet

LSTM解决RNN中的梯度消失

蓝色仙女

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
详解梯度消失和梯度爆炸以及解决方案

产生原因从深度网络角度理解梯度消失和爆炸产生的原因以上图的三层神经网络为例，可以将其视为一个非线性多层复合函数f=f3(f2(f1(x)))f=f_3(f_2(f_1(x)))f=f3(f2(f1(x)))如果后层计算出的梯度大于1，经过层层传递，则梯度传到了前部则梯度会呈现指数增长，即梯度爆炸，相反如果后层计算出的梯度小于1，则梯度传到了前部则梯度会呈现指数衰减，即梯度消失。从激活函数角度理解梯度消失和爆炸产生的原因Sigmoid函数的一阶导数是恒小于等于0.25的且在大部分取值范
复制链接

扫一扫