深度学习-梯度消失和梯度爆炸

fj1024

已于 2024-07-25 15:39:50 修改

阅读量203

点赞数 3

文章标签：深度学习人工智能

于 2024-06-26 21:43:48 首次发布

本文链接：https://blog.csdn.net/fj1024/article/details/139997655

版权

前向传播和反向传播原理：https://zhuanlan.zhihu.com/p/76772734

梯度消失和梯度爆炸本质上是因为神经网络的更新方法，梯度消失是因为反向传播过程中对梯度的求解会产生sigmoid导数和参数的连乘，sigmoid导数的最大值为0.25，权重一般初始都在0，1之间，乘积小于1，多层的话就会有多个小于1的值连乘，导致靠近输入层的梯度几乎为0，得不到更新。梯度爆炸是也是同样的原因，只是如果初始权重大于1，或者更大一些，多个大于1的值连乘，将会很大或溢出，导致梯度更新过大，模型无法收敛。

梯度消失，爆炸解决方案：

梯度剪切：设置一个梯度剪切阈值，然后更新梯度的时候，如果梯度超过这个阈值，那么就将其强制限制在这个范围之内。这可以防止梯度爆炸。

正则化是通过对网络权重做正则限制过拟合，仔细看正则项在损失函数的形式：

其中，是指正则项系数，因此，如果发生梯度爆炸，权值的范数就会变的非常大，通过正则化项，可以部分限制梯度爆炸的发生。

改变激活函数：sigmoid求导的最大值小于0.25，tanh的最大值小于1，但仍是小于1的，所以并不能解决这个。Relu:思想也很简单，如果激活函数的导数为1，那么就不存在梯度消失爆炸的问题了，每层的网络都可以得到相同的更新速度，relu就这样应运而生。先看一下relu的数学表达式：

从上图中，我们可以很容易看出，relu函数的导数在正数部分是恒等于1的，因此在深层网络中使用relu激活函数就不会导致梯度消失和爆炸的问题。

relu的主要贡献在于：

解决了梯度消失、爆炸的问题
计算方便，计算速度快
加速了网络的训练

Batchnorm本质上是解决反向传播过程中的梯度问题。正向传播中，那么反向传播中，反向传播式子对w求偏导，那么会有x的存在，所以的大小影响了梯度的消失和爆炸，batchnorm就是通过对每一层的输出做scale和shift的方法，通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到接近均值为0方差为1的标准正太分布，即严重偏离的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，使得让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。