深度学习中的梯度消失与梯度爆炸问题及其解决办法

最新推荐文章于 2024-04-25 21:40:58 发布

yougwypf1991

最新推荐文章于 2024-04-25 21:40:58 发布

阅读量555

点赞数

分类专栏：机器学习人工智能文章标签：深度学习人工智能神经网络

本文链接：https://blog.csdn.net/KangKermit/article/details/106859982

版权

人工智能同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

机器学习

23 篇文章 0 订阅

订阅专栏

问题引出

在前面，我们介绍了反向传播算法，其最终极的含义就是计算偏导数 $\frac{\partial C}{\partial\omega_{jk}^{l}}$ 和 $\frac{\partial C}{\partial b_{j}^{l}}$ ，其中 $\frac{\partial C}{\partial\omega_{jk}^{l}}=\alpha_k^{l-1}\cdot\delta_j^l$ ， $\delta^l=((\omega^{l+1})^T\delta^{l+1})\sigma^{\prime}(z^l)$ ，将 $\frac{\partial C}{\partial\omega}$ 用 $\delta^l$ 展开，可以想象一下，这会有很多的 $\sigma^{\prime}(z)\omega$ 连乘。
其中： $\sigma(z)=\frac{1}{1+e^{-z}}$ ，计算得到：
$\sigma^{\prime}(z)=\sigma(z)(1-\sigma(z))$

梯度消失

利用google搜索(1/(1+exp(-x)))(1-1/(1+exp(-x)))得到 $\sigma^{\prime}(z)$ 的图像：
在这里插入图片描述
该函数的最大值为 $\frac{1}{4}$ ，我们假设 $\omega$ 都是一个合适的数，使 $|\sigma^{\prime}(z)\omega|\lt 1$ ，可以想象，网络越深，连乘的次数越多，得到的 $\frac{\partial C}{\partial\omega}$ 越小，极端情况下 $\frac{\partial C}{\partial\omega}$ 可能趋近于0，这就是梯度消失。

梯度爆炸

既然梯度消失时令 $\frac{\partial C}{\partial\omega}$ 越来越小，相反的梯度爆炸就是让 $\frac{\partial C}{\partial\omega}$ 可能趋近于0越来越大，只要 $|\sigma^{\prime}(z)\omega|\gt 1$ 就是有可能的。回忆一下梯度下降算法中 $\omega$ 的更新方法：
$\omega_k \rightarrow \omega_k^{\prime}=\omega_k-\eta\frac{\partial C}{\partial \omega_k}$
想想一下，如果 $\eta\frac{\partial C}{\partial \omega_k}$ 比原本的 $\omega_k$ 都还要大了，那这个梯度就向反方向更新了，模型无法收敛，这就是梯度爆炸。

总结一下，其实梯度消失和梯度爆炸问题都是因为网络太深，网络权值更新不稳定造成的，本质上是因为梯度反向传播中的连乘效应，越乘越小或越乘越大。

如何解决

规避梯度消失和梯度爆炸的方法有：

预训练和微调
梯度阈值
主要是针对梯度爆炸，它设置一个梯度剪切阈值，然后更新梯度的时候，如果梯度超过这个阈值，那么就将其强制限制在这个范围之内。
正则化
也是针对梯度爆炸的，主要是通过对网络权重做正则来限制过拟合。如果发生梯度爆炸，那么权值就会变的非常大，反过来，通过正则化项来限制权重的大小，也可以在一定程度上防止梯度爆炸的发生，常用的正则化方法有 L1 正则和 L2 正则。
激活函数
通过之前的分析，我们发现梯度问题是由 $s i g m o d$ 函数的导数引起的，我们可以选其他的激活函数代替 $s i g m o d$ 函数，如 $r e l u$ 、 $t a n h$ ，其中 $r e l u$ 函数在正数部分的导数为1，不会导致梯度问题。
注： $tanh^{\prime}(z)=1-tanh(z)^2$ ，其最大值为1，也有可能出现梯度问题。
BN方法
BN(Batch Normalization)就是通过对每一层的输出规范为均值和方差一致的方法，消除了权重参数放大缩小带来的影响，进而解决梯度消失和爆炸的问题，或者可以理解为BN将输出从饱和区拉倒了非饱和区。
LSTM
通过各种是遗忘门、输入门和输出门决定需要丢弃和记忆哪些信息。能防止梯度问题。

其他

那深度神经网络难以训练的根本是因为梯度消失或梯度爆炸问题吗？不是，而是因为退化，具体来讲就是权重矩阵的退化，导致模型的有效自由度减少。

矩阵的条件数可以表示为：
$\kappa (A)=\frac{\sigma_{max}(A)}{\sigma_{min}(A)}$
其中 $\sigma_{max}(A)$ 和 $\sigma_{min}(A)$ 分别是 $A$ 的极大和极小奇异值。
随着相乘矩阵的数量(网络深度)的增加，矩阵的乘积变得更加退化，积矩阵的奇异值变得越来越集中，因此其条件数变得越来越大，越来越病态。

若一个矩阵的条件数越小，那么求解这个矩阵的线性方程组就越稳定，不会因为一点扰动导致这个线性方程组的解变化很大。可逆矩阵为非退化矩阵，不可逆矩阵为退化矩阵。

感谢阅读。

如果觉得文章对你有所帮助，欢迎打赏哦～
在这里插入图片描述

yougwypf1991

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
深度学习中的梯度消失与梯度爆炸问题及其解决办法

目录问题引出梯度消失梯度爆炸如何解决问题引出在前面，我们介绍了反向传播算法，其最终极的含义就是计算偏导数∂C∂ωjkl\frac{\partial C}{\partial\omega_{jk}^{l}}∂ωjkl∂C和∂C∂bjl\frac{\partial C}{\partial b_{j}^{l}}∂bjl∂C，其中∂C∂ωjkl=αkl−1⋅δjl\frac{\partial C}{\partial\omega_{jk}^{l}}=\alpha_k^{l-1}\cdot\delta_j^l
复制链接

扫一扫