神经网络（二）——深入理解反向传播的四个基本方程

最新推荐文章于 2024-05-22 23:13:44 发布

ChiiZhang

最新推荐文章于 2024-05-22 23:13:44 发布

阅读量3.8k

点赞数 17

分类专栏：深度学习文章标签：神经网络反向传播四个基本方程

本文链接：https://blog.csdn.net/m0_37687753/article/details/81367163

版权

深度学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

由于神经网络覆盖的内容比较多,一时提笔不知从何开始说起,刚好看到这一章以公式为主,因此先入手这一章。本章参考书籍《神经网络与深度学习》以及三蓝一棕的B站视频。

1.预备知识

我们先来看一张图，了解一下我们的符号定义：

我们首先给出网络中权重的定义：

wljk w j k l $w_{jk}^l$ 表示从第

l−1 l − 1 $l-1$ 层的的

k k $k$ 个神经元到

l

$l$ 层的第

j j $j$ 个神经元的连接的权重，可能大家会觉得这里权重的下标

j

$j$ 和

k k $k$ 应该调换，但是在之后的表达中，这样写会有一些好处。

我们继续来看一张图：

我们对网络的偏置和激活值也使用类似的表达。我们使用

b_{j}^{l}

$b_j^l$ 表示在第

l l $l$ 层第

j

$j$ 个神经元的偏置，使用

alj a j l $a_j^l$ 表示第

l l $l$ 层第

j

$j$ 个神经元的激活值。
有了这些符号表示，第

l l $l$ 层第

j

$j$ 个神经元的激活值

alj a j l $a_j^l$ 就和第

l−1 l − 1 $l-1$ 层的激活值关联起来了：
这里写图片描述

我相信你能看懂这个公式，举个例子，就是第二层的第一个神经元的激活值（值在0-1之间），是由第一层所有神经元的激活值乘上对应的权重矩阵（即每个激活值的重要程度）求和，然后加上第二层第一个神经元的偏置，最后通过整体利用sigmoid函数压缩到0-1的范围内。
但是一直看这个公式相信大家也会觉得很麻烦，毕竟太多的上标和下标要去思考含义，那我们就简化一下：
这里写图片描述

这样就简洁多了，为了在后面介绍四个方程时方便，我们引入一个中间量

zl=wlal−1+bl z l = w l a l − 1 + b l $z^l=w^la^{l-1}+b^l$ ，我们称

zl z l $z^l$ 称为

l l $l$ 层的带权输入。则上面的式子有时也可以写成

a^{l} = σ (z^{l})

$a^l=\sigma (z^l)$ 。同样要指出的是

zl z l $z^l$ 的每个元素是：
这里写图片描述

2. 反向传播的四个基本方程

我们要始终明确反向传播的目的是什么：反向传播算法是单个训练样本修改权重与偏置，影响代价函数的过程。最终极的含义就是计算偏导数: $\frac{\partial C}{\partial \omega {_{jk}}^{l}}$ 和 $\frac{\partial C}{\partial b {_{j}}^{l}}$ ，也就是告诉我们在改变权重和偏置时，代价函数变化的快慢，我们希望沿着速度最快的方向改变代价函数。注意，为了方便计算，我们还是引入一个中间量 $\delta _{j}^{l}$ ，这个我们称为在第 $l$ 层第 $j$ 个神经元上的误差。
这个误差是什么，如何来理解呢？我们先来看一下它的定义： $\delta _j^l \equiv \frac{\partial C}{\partial z {_{j}}^{l}}$ ，其实我们可以发现它其实是一个误差的度量，是一个变化率。假设在第 $l$ 层第 $j$ 个神经元上有一个微小的变化 $\triangle z_{j}^{l}$ ，使得神经元输出由 $\sigma (z_{j}^{l})$ 变成了 $\sigma (z_{j}^{l}+\triangle z_{j}^{l})$ 。这个变换会向网络后面的层进行传播，最终导致整个代价产生 $\frac{\partial C}{\partial z^l_j} \Delta z^l_j$ 。如果我们能找到使代价函数减小的 $\Delta z^l_j$ ，并且使它与 $\frac{\partial C}{\partial z {_{j}}^{l}}$ 变化率的符号相反，那么最终会使代价函数更小。
可能大家会疑惑为什么这里要用 $z^l$ ，如果用激活值 $a_j^l$ 表示度量误差的方法可能会更好理解。大家不要过于纠结这里，用前一种方法来表示会在后面公式推导的过程中更加方便，同样对这里误差的含义也不用太过纠结，我们就把它看成中间量。

2.1 四个方程的定义

1. 输出层误差的方程， $\delta ^l$ ，每个元素定义如下：

$\begin{eqnarray} \delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma'(z^L_j).\tag{BP1}\end{eqnarray}$
右式第一项 $\partial C / \partial a^L_j$ 表示代价随着第j个输出激活值的变化而变化的速度。假设C不太依赖一个特定的输出神经元j，即变化率很小，那么 $\delta^L_j$ 就会很小，这也是我们想要的效果。右式第二项 $\sigma'(z^L_j)$ 为在 $z_j^l$ 处激活函数 $\sigma$ 变化的速度。
以上是按每个元素分量定义的公式，如果以矩阵形式来表示，则为：
$\begin{eqnarray} \delta^L = \nabla_a C \odot \sigma’(z^L). \tag{BP1a}\end{eqnarray}$
这里 $\nabla_a C$ 被定义成一个向量，其元素是偏导数 $\partial C / \partial a^L_j$ 。你可以将 $\nabla_a C$ 看成是代价函数C关于输出激活值的改变速度。中间的那个符号表示为Hadamard乘积，其含义如下：

[12] ⊙ [34] = [1 * 3 2 * 4] = [38] . (1)

$\begin{eqnarray} \left[\begin{array}{c} 1 \\ 2 \end{array}\right] \odot \left[\begin{array}{c} 3 \\ 4\end{array} \right] = \left[ \begin{array}{c} 1 * 3 \\ 2 * 4 \end{array} \right] = \left[ \begin{array}{c} 3 \\ 8 \end{array} \right]. \tag{1}\end{eqnarray}$
（BP1）和（BP1a）是等价的。

2. 使用下一层的误差 $\delta^{l+1}$ 来表示当前层的误差 $\delta^{l}$ ：

δ l = ((w l + 1) T δ l + 1) ⊙ σ' (z l) (BP2)

$\begin{eqnarray} \delta^l = ((w^{l+1})^T \delta^{l+1}) \odot \sigma'(z^l) \tag{BP2}\end{eqnarray}$ 这个公式乍一看比较复杂，我们先不管它是如何推导出来的。先直观感受一下，我们一旦知道了当前层的误差，就可以求前一层的误差！这就引出了反向传播的感觉。通过组合（BP1）和（BP2），我们可以通过（BP1）计算当前层误差

δl δ l $\delta^l$ ，通过（BP2）计算

δl−1 δ l − 1 $\delta^{l-1}$ ，再用（BP2）计算

δl−2 δ l − 2 $\delta^{l-2}$ ，一步步反向传播整个网络。

3. 代价函数关于网络中任意偏置的变化率：

\partial C \partial b l j = δ l j . (BP3)

$\begin{eqnarray} \frac{\partial C}{\partial b^l_j} = \delta^l_j. \tag{BP3}\end{eqnarray}$

神奇的发现误差 $\delta^l_j$ 和偏导 $\frac{\partial C}{\partial b^l_j}$ 结果完全一样，这里可以发现，我们定义误差为z的好处了。

4. 代价函数关于任何一个权重的变化率：

\partial C \partial w l j k = a l - 1 k δ l j . (BP4)

$\begin{eqnarray} \frac{\partial C}{\partial w^l_{jk}} = a^{l-1}_k \delta^l_j. \tag{BP4}\end{eqnarray}$ 直观来看一下，可以发现右式第一项是输入给权重w的神经元的激活值，右式第二项是输出自权重w的神经元的误差。当输入的激活值很小的时候，偏导数的值也会很小，我们可以得到一个结果，即来自低激活值神经元的权重学习会非常缓慢，基本已经饱和了。
回忆一下sigmoid函数的形状，结合（BP1）中的项

σ′(zlk) σ ′ ( z k l ) $\sigma'(z_k^l)$ ，当

σ(zlk) σ ( z k l ) $\sigma(z_k^l)$ 近似为0或者1的时候，

σ σ $\sigma$ 函数非常平缓，则

σ′(zlk) σ ′ ( z k l ) $\sigma'(z_k^l)$ 近似为0。所以如果输出神经元处于低激活值或者高激活值状态时，最终层的权重学习缓慢，这样我们称神经元已经饱和了。
总结一下4个公式：

2.2 四个方程的证明

为了给大家更直观的证明，我们先进行单个参数的公式证明，假设一些内容：

C=12(al−y)2 C = 1 2 ( a l − y ) 2 $C=\frac{1}{2}(a^l-y)^2$ ；

zl=wlal−1+bl z l = w l a l − 1 + b l $z^l=w^la^{l-1}+b^l$ ；

al=σ(zl) a l = σ ( z l ) $a^l=\sigma(z^l)$
所有的证明都是基于多元微积分的链式法则：首先是BP1

δ l = = = \partial C \partial z l \partial C \partial a l * \partial a l \partial z l (a l - y) * σ' (z l) (2) (3) (4)

$\begin{eqnarray} \delta^l & = & \frac{\partial C}{\partial z^l} \tag{2}\\ & = &\frac{\partial C}{\partial a^{l}}*\frac{\partial a^l}{\partial z^{l}} \tag{3}\\ & = & (a^l-y)*\sigma'(z^l) \tag{4}\end{eqnarray}$
这就是链式法则，来，我们继续BP2:

δ l = = = = = \partial C \partial z l \partial C \partial z l + 1 * \partial z l + 1 \partial z l δ l + 1 j * \partial ( w l + 1 a l + b ) \partial z l δ l + 1 j * \partial ( w l + 1 σ ( z l ) + b ) \partial z l δ l + 1 j * w l + 1 * σ' (z l) (5) (6) (7) (8) (9)

$\begin{eqnarray} \delta^l & = & \frac{\partial C}{\partial z^l} \tag{5}\\ & = &\frac{\partial C}{\partial z^{l+1}}*\frac{\partial z^{l+1}}{\partial z^{l}} \tag{6}\\ & = & \delta^{l+1}_j*\frac{\partial ({w^{l+1}a^l+b})}{\partial z^{l}} \tag{7}\\ & = & \delta^{l+1}_j*\frac{\partial ({w^{l+1}\sigma(z^l)+b})}{\partial z^{l}} \tag{8}\\ & = & \delta^{l+1}_j*w^{l+1}*\sigma'(z^l) \tag{9} \end{eqnarray}$
继续，相信你也差不多知道BP3和BP4怎么证明了：BP3

\partial C \partial b l = = = \partial C \partial a l * \partial a l \partial z l * \partial z l \partial b l (a l - y) * σ' (z l) * 1 δ l (10) (11) (12)

$\begin{eqnarray} \frac{\partial C}{\partial b^l} & = & \frac{\partial C}{\partial a^l} * \frac{\partial a^l}{\partial z^l} *\frac{\partial z^l}{\partial b^l}\tag{10}\\ & = &(a^l-y)*\sigma'(z^l)*1\tag{11}\\ & = & \delta^l\tag{12} \end{eqnarray}$
最后一个BP4:

\partial C \partial w l = = = \partial C \partial a l * \partial a l \partial z l * \partial z l \partial w l (a l - y) * σ' (z l) * a l - 1 a l - 1 δ l (13) (14) (15)

$\begin{eqnarray} \frac{\partial C}{\partial w^l} & = & \frac{\partial C}{\partial a^l} * \frac{\partial a^l}{\partial z^l} *\frac{\partial z^l}{\partial w^l}\tag{13}\\ & = &(a^l-y)*\sigma'(z^l)*a^{l-1}\tag{14}\\ & = & a^{l-1}\delta^l\tag{15} \end{eqnarray}$ 以上就是针对单个参数的证明过程，同理对于多参数的情况，同样是利用链式法则来计算，这就大家自己去证明，主要就是加了一个求和的过程。

3.总结

上述虽然是说的4个方程，但是还是提醒大家注意反向传播的目的究竟是什么，最后要得到的还是代价函数对偏置和权重的求偏导（即是让单个训练样本代价函数能够改变的最快），因此（BP3）和（BP4）是我们最终要求的，（BP1）和（BP2）是帮助我们理解反向传播和计算方便的中间量。

键盘不灵了，打字贼痛苦。之后会出神经网络1的讲解

ChiiZhang

关注

17
点赞
踩
32

收藏

觉得还不错? 一键收藏
4
评论
神经网络（二）——深入理解反向传播的四个基本方程

由于神经网络覆盖的内容比较多,一时提笔不知从何开始说起,刚好看到这一章以公式为主,因此先入手这一章。本章参考书籍《神经网络与深度学习》以及三蓝一棕的B站视频。1.预备知识我们先来看一张图，了解一下我们的符号定义：我们首先给出网络中权重的定义：wljkwjklw_{jk}^l表示从第l−1l−1l-1层的的kkk个神经元到lll层的第jjj个神经元的连接的权重，可能大家会觉得这里权重...
复制链接

扫一扫