机器学习——反向传播推导与理解（Backpropagation, BP）

农夫三犭

已于 2022-02-13 15:49:20 修改

阅读量1.5k

点赞数 2

分类专栏：强化学习文章标签：机器学习随机梯度下降反向传播

于 2022-02-13 15:22:55 首次发布

本文链接：https://blog.csdn.net/qq_43280087/article/details/122907159

版权

强化学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

一文理解反向传播的原理与推导

什么是反向传播
反向传播理论推导

什么是反向传播

在训练神经网络的时候，会经常听到的一个名词：Backpropagation，反向传播。那么究竟什么是反向传播？我们知道训练神经网络的过程其实就是寻找一组较优参数的过程。这一过程经常需要用到梯度下降算法，即通过反复迭代，最终得到一组较优的参数。在线性回归中我们已经知道，参数的更新公式可以表示成：
$\theta_j\coloneqq\theta_j-\alpha\frac{\partial}{\partial\theta_j}J\left(\boldsymbol{\theta}\right)$
其中， $J\left(\boldsymbol{\theta}\right)=\frac{1}{2m}\sum_{i=1}^m\left(h_\boldsymbol{\theta}\left(x^{\left(i\right)}\right)-y^{\left(i\right)}\right)^2$ 。
从公式中可以看到，参数更新时用到了微分，具体而言就是针对每个参数，求其偏微分，然后带入到更新公式中即可。这在线性回归中是行得通的，因为往往这类问题涉及到的参数相对来说比较少，就算用人工的方式一个一个推导，似乎也可以得到最终的结果。但是在神经网络中，参数的数量和线性回归相比，根本不在一个量级，涉及到的函数也变成了多层复合函数。此时刚才的方法就行不通了，好在我们有“反向传播”。反向传播算法可以说是求解多层复合函数的所有变量的偏导数的利器，其具体思想就是我们熟知的链式法则求导。下面将作具体介绍。

反向传播理论推导

在讲解反向传播之前，先来回顾一下梯度下降（图片来源为李宏毅2021春机器学习课程的课件）。

在梯度下降中，我们首先会随机初始化一组参数 $\theta^0$ ，然后通过对 $\theta^0$ 中的每一个参数求偏导，得到由所有的参数构成的向量 $\nabla{L(\theta)}$ ，即图中左边部分内容。将其代入到图中右边公式： $\theta^1=\theta^0-\eta\nabla{L(\theta^0)}$ ，对参数进行更新，得到 $\theta^1$ 。重复上述过程，直到得到一组较优的参数 $\theta$ 。
由于神经网络通常涉及大量参数，为了更有效的计算梯度，引入了反向传播。

在训练时，我们通常会有一个损失函数，在图中，损失函数是所有样本损失之和。即假设第 $n$ 个训练样本输入到神经网络后，得到输出 $y^n$ ，同时，这一样本对应的真实值是 $\hat{y}^n$ ，则 $C^n$ 表示两者之间的误差，例如我们可以定义 $C^n=y^n-\hat{y}^n$ ，将所有样本的误差相加就可以得到最终的损失函数 $L(\theta)$ 。于是求偏导的公式就可以写成图中形式：
$\frac{\partial{L(\theta)}}{\partial{\omega}}=\sum_{n=1}^N\frac{\partial{C^n(\theta)}}{\partial{\omega}}$
于是，我们只需要关注某一个样本的 $\frac{\partial{C^n(\theta)}}{\partial{\omega}}$ 。以一个神经元的计算为例，即上图中的红色三角形部分。

现在假设神经网络的输入为 $x_1，x_2$ ，对应参数为 $\omega_1，\omega_2$ ，偏量为 $b$ ，则我们可以得到 $z=x_1\omega_1+x_2\omega_2+b$ 。 $z$ 通过激活函数后，再根据一系列类似的计算最终得到输出 $y_1，y_2$ 。根据链式求导法则，可以得到：
$\frac{\partial{C}}{\partial{\omega}}=\frac{\partial{z}}{\partial{\omega}}\frac{\partial{C}}{\partial{z}}$
接下来就需要分别计算这两部分。其中计算 $\frac{\partial{z}}{\partial{\omega}}$ 叫做forward pass，计算 $\frac{\partial{C}}{\partial{z}}$ 叫做backward pass。

Forward pass很简单，就是一次函数的求导：
$\frac{\partial{z}}{\partial{\omega_1}}=x_1 \\[4pt] \frac{\partial{z}}{\partial{\omega_2}}=x_2$
从中我们可以得到规律： $\frac{\partial{z}}{\partial{\omega_i}}$ 的结果就是与参数 $\omega_i$ 相连接的输入值。例如，在图中与 $\omega_1$ 相连的是 $x_1$ ，那么 $\frac{\partial{z}}{\partial{\omega_1}}=x_1$ 。

我们再用具体的数值作一下理解。现在我们的输入为-1和1，对应着四个参数： $\omega_{11}=1,\omega_{12}=-1,\omega_{21}=-2,\omega_{22}=1$ 。按照刚才的规律·，我们可以直接得到 $\frac{\partial{z_2}}{\partial{\omega_{22}}}=-1$ ，根据图中的值，我们可以计算 $z_2=1\times(-1)+(-1)\times1+0=-2$ ，经过激活函数函数后（假设为sigmoid），得到 $a_2=\frac{1}{1+e^{-2}}\approx0.12$ ，于是按照同样的方法，我们可以得到 $\frac{\partial{z}}{\partial{\omega}}=0.12$ 。
接下来是Backward pass，即计算 $\frac{\partial{C}}{\partial{z}}$ 。

我们假设 $z$ 经过的激活函数为sigmoid函数，则我们可以得到 $a=\sigma(z)$ ，则
$\frac{\partial{C}}{\partial{z}}=\frac{\partial{a}}{\partial{z}}\frac{\partial{C}}{\partial{a}}=\sigma'(z)\frac{\partial{C}}{\partial{a}}$
$\sigma(z)$ 及其导数的图像为：

此时，我们将 $a$ 作为输入，进行上述和求 $z$ 同样的计算，可以得到 $z^{'}, z^{''}$ ，那么 $\frac{\partial{C}}{\partial{a}}$ 可以写成：
$\frac{\partial{C}}{\partial{a}}=\frac{\partial{z'}}{\partial{a}}\frac{\partial{C}}{\partial{z'}}+\frac{\partial{z''}}{\partial{a}}\frac{\partial{C}}{\partial{z''}}$

将 $\frac{\partial{a}}{\partial{z}}$ 和 $\frac{\partial{C}}{\partial{a}}$ 两部分的结果进行整理，可以得到：
$\frac{\partial{C}}{\partial{z}}=\sigma'(z)\left( \omega_3 \frac{\partial{C}}{\partial{z'}} +\omega_4 \frac{\partial{C}}{\partial{z''}} \right)$
从另一个角度看上述公式：

此时，我们的输入是 $\frac{\partial{C}}{\partial{z'}}$ 和 $\frac{\partial{C}}{\partial{z''}}$ ，参数是 $\omega_3和\omega_4$ ，和前向传播类似，通过相乘再相加，最后再乘以一个常数 $\sigma'(z)$ ，我们就可以得到 $\frac{\partial{C}}{\partial{z}}$ 具体表达式，这就是反向传播的内核所在，即从相反的角度作和前向传播类似的计算（前向传播需要经过一个激活函数，而反向传播需要乘以一个常数）。
那么现在的问题就只剩下如何计算 $\frac{\partial{C}}{\partial{z'}}$ 和 $\frac{\partial{C}}{\partial{z''}}$ 这两项了。下面分情况进行讨论：
case1： $z^{'} 和 z^{''}$ 经过激活函数后，直接输出（例如 $y_1=a'=sigmoid(z')$ ）。

那么，此时具体的计算为：
$\frac{\partial{C}}{\partial{z'}}= \frac{\partial{y_1}}{\partial{z'}} \frac{\partial{C}}{\partial{y_1}} \\[4pt] \frac{\partial{C}}{\partial{z''}}= \frac{\partial{y_2}}{\partial{z''}} \frac{\partial{C}}{\partial{y_2}}$
$\frac{\partial{C}}{\partial{y_1}}$ 和 $\frac{\partial{C}}{\partial{y_2}}$ 的具体表达式需要根据损失函数 $C$ 的具体形式决定。
case2： $z^{'} 和 z^{''}$ 经过激活函数后，后面仍有内容，即处于中间某一环节。

此时，
$\frac{\partial{C}}{\partial{z'}}=\sigma'(z')\left( \omega_5 \frac{\partial{C}}{\partial{z_a}} + \omega_6 \frac{\partial{C}}{\partial{z_b}} \right)$
于是，我们的任务又变成了求 $\frac{\partial{C}}{\partial{z_a}},\frac{\partial{C}}{\partial{z_b}}$ 。如此反复进行下去，直到我们到达输出层。
以上是我们从正向的角度逐一对参数进行分解求导的。如果我们从输出层开始反向计算，相当于将神经网络计算方向反过来，那么问题就会变得很简单

从输出层，我们可以很容易得计算出 $\frac{\partial{C}}{\partial{z_5}},\frac{\partial{C}}{\partial{z_6}}$ ，于是按照上面公式，就可以得到 $\frac{\partial{C}}{\partial{z_3}},\frac{\partial{C}}{\partial{z_4}}$ ，再进行类似得计算，最后就可以得到 $\frac{\partial{C}}{\partial{z_1}},\frac{\partial{C}}{\partial{z_2}}$ 。