【CV】梯度消失和梯度爆炸

最新推荐文章于 2022-03-23 11:10:08 发布

机器不学习我学习

最新推荐文章于 2022-03-23 11:10:08 发布

阅读量276

点赞数

分类专栏： CV面试

本文链接：https://blog.csdn.net/AugustMe/article/details/110661177

版权

CV面试专栏收录该内容

63 篇文章 18 订阅

订阅专栏

1. 什么是梯度消失，梯度爆炸

1.1. 什么是梯度消失

梯度消失是指在反向传播过程中梯度逐渐降低到0，导致参数不可学习的情况。

1.2. 什么是梯度爆炸

与梯度消失相反，在反向传播过程中，由于梯度过大导致模型无法收敛的情况。

总结：无论梯度消失还是梯度爆炸都跟模型学习过程中的链式求导有关。
当模型的层数过多的时候，计算梯度的时候就会出现非常多的乘积项。用下面这个例子来理解：
在这里插入图片描述
这是每层只有1个神经元的例子，每个神经元的激活函数都是sigmoid，然后我们想要更新b1这个参数。按照大家都公认的符号来表示：
可以得到这个偏导数：

然后化简：

因此经常会有这样的现象：
在这里插入图片描述
图中，分别表示4层隐藏层的梯度变化幅度。可以看到，最浅的那个隐藏层，梯度更新的速度，是非常小的。【图中纵轴是指数变化的】。

【总结】

梯度消失和梯度爆炸是指前面几层的梯度，因为链式法则不断乘小于（大于）1的数，导致梯度非常小（大）的现象；
sigmoid导数最大0.25，一般都是梯度消失问题。

2. 解决梯度消失，梯度爆炸的方法

2.1. 更换激活函数

最常见的方案就是更改激活函数，现在神经网络中，除了最后二分类问题的最后一层会用sigmoid之外，每一层的激活函数一般都是用ReLU。

【ReLU】：如果激活函数的导数是1，那么就没有梯度爆炸问题了。
在这里插入图片描述

【leakyReLU】：在ReLU的负数部分，增加了一定的斜率：
在这里插入图片描述
解决了ReLU中会有死神经元的问题。

【ELU】:跟Leaky ReLU一样是为了解决死神经元问题，但是增加的斜率不是固定的：
在这里插入图片描述
但是相比Leaky ReLU，计算量更大。

2.2. 添加Batch Norm（BN）层

这个是非常给力的成功，在图像处理中必用的层了。BN层提出来的本质就是为了解决反向传播中的梯度问题。

在神经网络中，有这样的一个问题：Internal Covariate Shift。假设第一层的输入数据经过第一层的处理之后，得到第二层的输入数据。这时候，第二层的输入数据相对第一层的数据分布，就会发生改变，所以这一个batch，第二层的参数更新是为了拟合第二层的输入数据的那个分布。然而到了下一个batch，因为第一层的参数也改变了，所以第二层的输入数据的分布相比上一个batch，又不太一样了。然后第二层的参数更新方向也会发生改变。层数越多，这样的问题就越明显。

但是为了保证每一层的分布不变的话，那么如果把每一层输出的数据都归一化0均值，1方差不就好了？但是这样就会完全学习不到输入数据的特征了。不管什么数据都是服从标准正太分布，想想也会觉得有点奇怪。所以BN就是增加了两个自适应参数，可以通过训练学习的那种参数。这样把每一层的数据都归一化到β均值，γ标准差的正态分布上。

【将输入分布变成正态分布，是一种去除数据绝对差异，扩大相对差异的一种行为，所以BN层用在分类上效果的好的。对于Image-to-Image这种任务，数据的绝对差异也是非常重要的，所以BN层可能起不到相应的效果。】