梯度消失和梯度爆炸

jumpin_

已于 2022-02-08 12:50:15 修改

阅读量508

点赞数 2

分类专栏：深度学习文章标签：神经网络深度学习机器学习

于 2022-02-08 12:14:22 首次发布

本文链接：https://blog.csdn.net/hhellooworld/article/details/122821328

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

梯度消失

神经网络通过反向传播来训练参数，当神经网络得层数很深的时候，如果使用 $s i g m o d$ 函数或者 $t a n h$ 函数作为激活函数，因为每次的梯度都小于1，对应权重的梯度会变得原来越小，反向传播到靠近输入层时，梯度会变得非常小，也就难以对靠前的神经网络层进行更新，这个现象称为梯度消失（Gradient vanishing problem）。

我第一次看梯度消失的时候想了半天哈哈哈哈，还是总结一下，看一看具体发生了什么事情导致了梯度消失。

假设我们的神经网络大概长这样，激活函数选择sigmoid函数：

在这里插入图片描述

假设每一层只有一个神经元，在每一层中 $a_i = \sigma(h_i) = \sigma(w_ia_{i-1}+b_i)$ 。

记损失函数为 $L$ , 如果我们想要更新参数 $w 1$ , 需要通过求出 L 对 w1 的梯度对其进行更新：

$w_1^{'}= w_1 - \eta \frac{\partial L}{\partial w_1}$
$\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial a_3}\frac{\partial a_3}{\partial a_2}\frac{\partial a_2}{\partial a_1}\frac{\partial a_1}{\partial w_1} \tag{1}$

其中：
$a_3 = \sigma(h_3) = \sigma(w_3a_2+b_3)\\ \frac{\partial a_3}{\partial a_2} = \frac{\partial a_3}{\partial h_3}\frac{\partial h_3}{\partial a_2} = \sigma^{'}(h_3)w_3$
因此 $(1)$ 式可以写作成
$\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial a_3}\sigma^{'}(h_3)w_3\sigma^{'}(h_2)w_2\sigma^{'}(h_1)x$

$\sigma^{'}(h_3)$ 和 $\sigma^{'}(h_2)$ 为sigmoid函数的导数在 $h_3, h_2$ 处的值，sigmod函数的导数如图所示：

import matplotlib.pyplot as plt
import numpy as np

def sigmoid(x):
    return 1/(1+np.exp(-x))

def d_sigmoid(x):
    return sigmoid(x)*(1-sigmoid(x))

x=np.arange(-5,5,0.01)
plt.grid()
plt.plot(sigmoid(x),label='sigmoid(x)',color='blue')
plt.plot(d_sigmoid(x),label='derivative',color='red')
plt.legend(loc='upper right')