反向传播(BP)算法

最新推荐文章于 2024-08-23 07:00:00 发布

zxhohai

最新推荐文章于 2024-08-23 07:00:00 发布

阅读量4.6k

点赞数 8

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/hohaizx/article/details/78210516

版权

机器学习专栏收录该内容

27 篇文章 271 订阅

订阅专栏

我们知道反向传播(BP)算法的发明促成了神经网络的第二次发展浪潮，到目前为止BP算法依旧是训练神经网络的首选算法。但是对于如此重要的一个算法，我们大多数人只是记住算法的计算公式，或者在程序中直接调用，对算法的来龙去脉知之甚少，这篇博客将从数学上推导出BP算法的计算公式。

损失函数最小化和梯度下降法

几乎所有的机器学习算法的训练目标都是找到使损失函数最小的参数。具体到神经网络模型中，我们给定网络输入 $\{(x^1,\hat{y}^1),(x^2,\hat{y}^2),...,(x^n,\hat{y}^n)\}$ ，其中 $x^k$ 表示第 $k(k\in[1,n])$ 个输入样本， $\hat{y}^k(k\in[1,n])$ 代表对应的理想输出。我们期望网络输出和理想输出的总体误差越小越好，我们用损失函数 $C$ 来度量这个误差，因此得到我们的训练目标——使损失函数 $C$ 尽可能小( $C$ 的定义方式有多种，下面只是其中一种)：
$C=\frac{1}{N}\sum_{k=1}^N(y^k-\hat{y}^k)^2$

其中 $y^k$ 表示网络输出，现在我们就是要去找到损失函数的最小值点，对应的参数就是我们要求的最佳参数。求最小值在数学中经常使用梯度下降算法，所以求解问题等价于求：
$\frac{\partial C}{\partial w_{ij}^l}\\ \frac{\partial C}{\partial b_{i}^l}$

其中 $w_{ij}^l$ 表示第 $l$ 层第 $i$ 个神经元与第 $l - 1$ 层第 $j$ 个神经元之间的连接权重， $b_{i}^l$ 表示第 $l$ 层第 $i$ 个神经元的偏置。如果我们直接去求所有神经元的导数，将是一个费时费力的过程，能不能找到一个高效的算法来计算网络参数的梯度呢？

链式求导法则

在介绍BP算法之前，有必要介绍一下高等数学中的链式求导法则，主要包括以下两种情形。
Case 1
$y=g(x)\quad z=h(y)\\ \Delta(x)\to\Delta(y)\to\Delta(z)$

有
$\frac{dz}{dx}=\frac{dz}{dy}\frac{dy}{dx}$

Case 2
$x=g(s)\quad y=h(s)\quad z=k(x,y)$

在这里插入图片描述

有
$\frac{\partial z}{\partial s}=\frac{\partial z}{\partial x}\frac{\partial x}{\partial s} + \frac{\partial z}{\partial y}\frac{\partial y}{\partial s}$

上面两条就称为求导的链式法则。

BP算法推导过程

下面以求 $\frac{\partial C}{\partial w_{ij}^l}$ 为例。首先看下图所示的一般情况。
在这里插入图片描述
根据链式求导法则有，
$\Delta w_{ij}^l\to\Delta z_i^l\to\cdots\to\Delta C$

所以我们可以将 $\frac{\partial C}{\partial w_{ij}^l}$ 下成下面的形式：
$\frac{\partial C}{\partial w_{ij}^l}=\frac{\partial C}{\partial z_i^l}\frac{\partial z_i^l}{\partial w_{ij}^l}$

根据
$z_i^l=\sum_jw_{ij}^la_j^{l-1}+b_i^l$

有
$\frac{\partial z_i^l}{\partial w_{ij}^l}=a_j^{l-1}$

所以现在的目标就是求出 $\frac{\partial C}{\partial z_i^l}$ 。
令 $\frac{\partial C}{\partial z_i^l}=\delta_i^l$
我们容易发现，当 $l$ 是最后一层(即 $l = L$ )时， $\delta_i^L$ 是容易计算的。
因为
$\Delta z_i^L\to\Delta a_i^L=\Delta y_i\to\Delta C$

所以
$\delta_i^L=\frac{\partial C}{\partial z_i^L}=\frac{\partial C}{\partial y_i}\frac{\partial y_i}{\partial z_i^L}$

式中第一项取决于我们定义的损失函数，第二项就是对激活函数求导，我们记为 $\sigma^\prime(z_i^L)$ 。考虑第 $L$ 层中所有的神经元，写成矩阵的形式有：
$\begin{aligned} \delta^L=\sigma^\prime(z^L)\centerdot\nabla C(y) \tag 1 \end{aligned}$

现在考虑 $l$ 不是最后一层的情况，同样的，我们根据求导的链式法则有：
在这里插入图片描述
所以
$\delta_i^l=\frac{\partial C}{\partial z_i^l}=\frac{\partial a_i^l}{\partial z_i^l}\sum_k\frac{\partial C}{\partial z_k^{l+1}}\frac{\partial z_k^{l+1}}{\partial a_i^l}$

式中，第一项同样是激活函数的导数，第二项又是一个 $\delta_k^{l+1}$ ，第三项等于 $w_{ki}^{l+1}$ 。所以有：
$\delta_i^l=\sigma^\prime(z_i^l)\sum_kw_{ki}^{l+1}\delta_k^{l+1}$

同样整理成矩阵的形式有：
$\delta^l=\sigma^\prime(z^l)\centerdot (w^{l+1})^T\centerdot\delta^{l+1} \tag 2$

最后，综上所述，整理(1)(2)可得:
$\delta^l = \begin{cases} \sigma^\prime(z^L)\centerdot\nabla C(y) &\text{$l=L$}\\ \sigma^\prime(z^l)\centerdot (w^{l+1})^T\centerdot\delta^{l+1} &\text{$l\neq L$} \end{cases}$