梯度消失与梯度爆炸的原因

最新推荐文章于 2024-07-28 16:01:05 发布

Ff俯仰之间

最新推荐文章于 2024-07-28 16:01:05 发布

阅读量408

点赞数

分类专栏：机器学习文章标签：机器学习神经网络随机梯度下降深度学习

本文链接：https://blog.csdn.net/Axiaobai12138/article/details/109435961

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在学习resnet时发现一个问题：
在这里插入图片描述

在深度神经网络中，如果层数过大，会导致梯度消失、梯度下降的问题。
残差网络中的shortcut可以解决这一问题。
今天先来说清楚梯度消失、梯度下降的原因。

参考文章

为啥有梯度消失、梯度下降？
https://www.zhihu.com/question/290392414/answer/940509039

详解深度学习中的梯度消失、爆炸原因及其解决方法
https://zhuanlan.zhihu.com/p/33006526

先从最基本的单层神经网络入手。
在这里插入图片描述
正向传播的公式如下：

$(x_1*w_1+x_2*w_2) \tag{1}$
$\tag{2}$
其中， $x_1,x_2$ 为一个输入样本的两个维度， $w_1,w_2$ 为权重， $a$ 为线形激活后的值， $h$ 为经过非线性激活 $s i g n e d ()$ 后的预期值（在学习过程中往往用 $\hat{y}$ 表示）。
为了方便我们省略偏差（bias），并且使用均方差函数作为loss。
$\frac{1}{2}(h - y)^2 \tag{3}$
loss即为损失函数，y对应实际的标签。
下面我们开始一步步求导。
在公式3中对，对h求导。
$\frac{d_{loss}}{d_h} = h-y \tag{4}$
在公式2中，对a求导。
$\frac{d_h}{d_a} = a(1-a) \tag{5}$
顺便提一下，sigmod函数的原始形式。
$\frac{1}{1-e^x} \tag{6}$
求导之后。
$\frac{1}{1-e^x}(1 - \frac{1}{1-e^x}) \tag{7}$
在公式1中，对x，w求导比较简单。
$\frac{d_a}{d_{w1}} = x_1 \tag{8}$
$\frac{d_a}{d_{x1}} = w_1 \tag{9}$
$\frac{d_a}{d_{w2}} = x_2 \tag{10}$
$\frac{d_a}{d_{x2}} = w_2 \tag{11}$
经过一系列的求导，根据链式，我们得到下面的公式。
$\frac{d_{loss}}{d_{wi}} = \frac{d_{loss}*d_h*d_a}{d_h*d_a*d_{wi}} = (h-y)*a(1-a)*x_i \tag{12}$
$\frac{d_{loss}}{d_{xI}} = \frac{d_{loss}*d_h*d_a}{d_h*d_a*d_{xi}} = (h-y)*a(1-a)*w_i \tag{13}$
根据公式5-7，我们可以得到sigmod函数的求导函数。并且sigmod求导函数的值域在[0,1]之间。关于这个值域问题，我们看下面的图。
在这里插入图片描述
图例是sigmod函数求导之后，y关于x的图像。
我们根据公式12、公式13已经找到了当前单层神经网络的梯度。
其中 $a (1 - a)$ 能够确定是一个0到1之间的数值。
接着讨论 $h-y)*w_1$ 与 $h-y)*x_1$ 的对梯度的影响即可。
在上述两个式子的作用下，如果每一层的梯度都在0到1之间，那么梯度会变得越来越小，最后出现梯度消失现象。
如果每一层的梯度都大于1，那么梯度会变得越来越大，最后出现梯度爆炸的现象。
原答者认为，梯度消失、爆炸很大程度上取决于权重的初始化有关。根本原因是链式法则运算导致的层层缩放。
在下认为，避免出现梯度消失、梯度爆炸要注意权重的初始化，毕竟余下的 $w_1，x_1，y$ 已是可以确定的条件。