数学公式推导——理解梯度消失和梯度爆炸

最新推荐文章于 2025-04-27 11:54:37 发布

真炎破天

最新推荐文章于 2025-04-27 11:54:37 发布

阅读量1.5k

点赞数

分类专栏：深度学习基础知识文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/u012409283/article/details/128362236

版权

深度学习基础知识专栏收录该内容

6 篇文章

订阅专栏

梯度消失和梯度爆炸的定义

梯度消失：又叫梯度弥散。是指模型梯度在反向传播时，梯度值接近零，导致模型权重不能正常更新，使模型无法正常收敛的现象；
梯度爆炸：是指模型梯度在反向传播使，梯度值无限扩大，导致模型权重趋于无穷，使模型无法正常收敛的现象。常常伴随着loss为nan的现象。

数学公式解释

梯度消失和梯度爆炸都可以用 $y={\left( {\rm{x}} \right)^{\rm{n}}}$ 来解释，其中n表示模型层数，当n很大且x大于1时，y会趋于无穷大；而当x小于1时，随着n增大，y会趋于无穷小。从此处我们也可以看出，无论是梯度爆炸还是梯度消失，都是发生在远离输出的底层网络。
那现在的问题是，x在梯度反向传播时表示什么？什么情况会导致x>0; 或者x < 0 呢

链路法则下的x

链路法则下的求导可以分为两步，第一步是损失函数对logit的导数；第二步是当前层输出（logit是最后一层的输出）对前一层输出的导数；

损失函数对logit的导数

我们以交叉熵损失函数为例：设分类模型共 $m$ 个类别，其中计算梯度的样本标签为 $k$ ，损失函数为 $L oss$ ，最后一层模型输出logit为 $x$ , 则损失函数可以表示为：
${y_k} = \frac{{{e^{{x_k}}}}}{{\sum\limits_{i = 1}^m {{e^{{x_i}}}} }}$ $Loss = - \log ({y_k})$
对其求导可得：
$\frac{{\partial Loss}}{{\partial x}} = [{y_1},{y_2},...{y_{k}-1},...{y_m}]$

当前层输出和前一层输出的导数

我们假设，每一层由一个激活函数 $f$ 和一个全连接层 $W x$ 构成，则 ${{\text{x}}_n} = f(W{x_{n - 1}})$ ，对其求导： $\frac{{\partial {x_n}}}{{\partial {x_{n - 1}}}} = {f^{ - 1}}*W$ ，则通过递归法则可知， $\frac{{\partial {x_n}}}{{\partial {x_{n - k}}}} = ({f^{ - 1}})^k*W^k$ , 可知，此处的 $\frac{{\partial {x_n}}}{{\partial {x_{n - 1}}}}$ 就近似等于前面提到的链路法则下的 $x$ ，当激活函数的导数 $f^{ - 1}$ 小于1时， $\frac{{\partial {x_n}}}{{\partial {x_{n - k}}}}$ 倾向于趋近零（对应梯度消失），而当 $W$ 大于1时， $\frac{{\partial {x_n}}}{{\partial {x_{n - k}}}}$ 倾向于趋近无穷大（对应梯度爆炸）