深度神经网络中的梯度丢失与梯度爆炸

最新推荐文章于 2024-07-20 17:43:09 发布

生活不只*眼前的苟且

最新推荐文章于 2024-07-20 17:43:09 发布

阅读量1.5k

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

66 篇文章 23 订阅

订阅专栏

神经网络的反向传播

要理解梯度丢失（vanishing gradient）和梯度爆炸，首先需要理解神经网络的反向传播算法。

一般来说，训练一个神经网络需要很多个迭代。在每个迭代中，都包含两个步骤。

前馈（feed forward）：它指的是从神经网络的输入开始，根据每一层的权重和偏置，逐层计算输出，直到得到神经网络的最终输出。这个输出值可以是对图片的分类，也可以是对数据走势的预测等等。
反向传播（back propagation）：它指的是将神经网络的输出值和标准值进行比较，从而得到误差值。然后计算网络的每一层对这个误差值的“贡献”，并对每一层的权重和偏置进行调整的过程。

一个标准的神经网络训练迭代如下图所示：

Screen Shot 2017-03-11 at 9.00.21 AM

链式求导法则

那么，我们如何根据误差值更新每一个权重和偏置呢？这就涉及到我们如何计算误差值对每一个权重和偏置的梯度（gradient）。有了这个梯度，我们就可以利用梯度下降法来更新权重和偏置了。在计算误差对每个权重和偏置的梯度的过程中，我们利用了链式求导法则。下面让我们用一个具体的例子来说明链式求导在反向传播中是如何工作的。

让我们考虑下面这个简单的深度神经网络，它的每一层都只包含一个神经元，一共有三个隐藏层：

Screen Shot 2017-03-07 at 9.21.20 PM

这里的 $w_1, w_2, \dots$ 表示权重， $b_1, b_2, \dots$ 表示偏置， $C$ 表示网络的输出，每个神经元的激活函数（activation function）记为 $\delta$ ， $a_j$ 表示第 $j$ 个神经元的输出，其中 $a_0$ 等于网络的输入， $a_j = \delta(z_j)$ ， $z_j = w_j * a_{j-1} + b_j$ 。

在反向传播过程中，我们需要计算 $C$ 对所有权重 $w_j$ 和偏置 $b_j$ 的偏导数。下面我们以 $\partial C/\partial b_1$ 为例，说明反向传播是如何工作的。

根据链式求导法则， $\partial C/\partial b_1$ 可以被写为：

$\frac{\partial C}{\partial b_1} =\frac{\partial C}{\partial a_4}\times\frac{\partial a_4}{\partial b_1}$

由于 $a_4 = \delta(z_4) = \delta(w_4 * a_3 + b_4)$ ，因此

$\frac{\partial C}{\partial b_1} =\frac{\partial C}{\partial a_4}\times w_4\times\delta'(z_4)\times\frac{\partial a_3}{\partial b_1}$

反复利用上述求导方法，可以最终得到：

$\frac{\partial C}{\partial b_1} =\frac{\partial C}{\partial a_4}\times w_4\times\delta'(z_4)\times w_3\times\delta'(z_3)\times w_2\times\delta'(z_2)$