一文彻底搞懂BP算法：原理推导+数据演示+项目实战（上篇）

本文链接：https://blog.csdn.net/fendouaini/article/details/79789440

欢迎大家关注我们的网站和系列教程：http://www.tensorflownews.com/，学习更多的机器学习、深度学习的知识！

反向传播算法（Backpropagation Algorithm，简称BP算法）是深度学习的重要思想基础，对于初学者来说也是必须要掌握的基础知识！本文希望以一个清晰的脉络和详细的说明，来让读者彻底明白BP算法的原理和计算过程。

全文分为上下两篇，上篇主要介绍BP算法的原理（即公式的推导），介绍完原理之后，我们会将一些具体的数据带入一个简单的三层神经网络中，去完整的体验一遍BP算法的计算过程；下篇是一个项目实战，我们将带着读者一起亲手实现一个BP神经网络（不适用任何第三方的深度学习框架）来解决一个具体的问题。

读者在学习的过程中，有任何的疑问，欢迎加入我们的交流群（扫描文章最后的二维码即可加入），和大家一起讨论！

1. BP算法的推导

图1 一个简单的三层神经网络

图1所示是一个简单的三层（两个隐藏层，一个输出层）神经网络结构，假设我们使用这个神经网络来解决二分类问题，我们给这个网络一个输入样本，通过前向运算得到输出。输出值的值域为，例如的值越接近0，代表该样本是“0”类的可能性越大，反之是“1”类的可能性大。

1.1前向传播的计算

为了便于理解后续的内容，我们需要先搞清楚前向传播的计算过程，以图1所示的内容为例：

输入的样本为： $\overrightarrow{a}=(x_ {1} , x_ {2} )$

第一层网络的参数为：

$W^{(1)}=\left[\begin{array}{l}w_{\left(x_{1}, 1\right)}, w_{\left(x_{2}, 1\right)} \\ w_{\left(x_{1}, 2\right)}, w_{\left(x_{2}, 2\right)} \\ w_{\left(x_{1}, 3\right)}, w_{\left(x_{2}, 3\right)}\end{array}\right], \quad b^{(1)}=\left[b_{1}, b_{2}, b_{3}\right]$

第二层网络的参数为：

$W^{(2)}=\left[\begin{array}{l}w_{(1,4)}, w_{(2,4)}, w_{(3,4)} \\ w_{(1,5)}, w_{(2,5)}, w_{(3,5)}\end{array}\right], \quad b^{(2)}=\left[b_{4}, b_{5}\right]$

第三层网络的参数为：

$W^{3}=\left[w_{(4,6)}, w_{(5,6)}\right], \quad b^{(3)}=\left[b_{6}\right]$

1.1.1 第一层隐藏层的计算

图2 计算第一层隐藏层

第一层有三个神经元： $neu_1$ ， $neu_2$ ， $neu_3$ 。该层的输入为：
$Z^{(1)}=W^{(1)} *(\vec{a})^{T}+\left(b^{(1)}\right)^{T}$
以 $neu_1$ 神经元为例，则其输入为：
$z_{1}=w_{\left(x_{1}, 1\right)} * x_{1}+w_{\left(x_{2}, 1\right)} * x_{2}+b_{1}$
同理有：

$\begin{aligned} &z_{2}=w_{\left(x_{1}, 2\right)} * x_{1}+w_{\left(x_{2}, 2\right)} * x_{2}+b_{2} \\ &z_{3}=w_{\left(x_{1}, 3\right)} * x_{1}+w_{\left(x_{2}, 3\right)} * x_{2}+b_{3} \end{aligned}$

假设我们选择函数 $f (x)$ 作为该层的激活函数 ( 图 1 中的激活函数都际了一个下标，一般情况下，同一层的激活函数都是一样的，不同层可以选择不同的激活函数），那么该层的输出为： $f_{1}(z_{1})， f_{2}\left(z_{2}\right)$ 和 $f_{3}\left(z_{3}\right)$

1.1.2 第二层隐藏层的计算

图3 计算第二层隐藏层

第二层隐藏层有两个神经元: $neu_{4}$ 和 $neu_{5}$ 。该层的输入为:
$z^{(2)}=W^{(2)} *\left[z_{1}, z_{2}, z_{3}\right]^{T}+\left(b^{(2)}\right)^{T}$
即第二层的输入是第一层的输出乘以第二层的权重，再加上第二层的偏置。因此得到 $n e u_{4}$ 和 $n e u_{5}$ 的输入分别为:
$\begin{aligned} &z_{4}=w_{(1,4)} * z_{1}+w_{(2,4)} * z_{2}+w_{(3,4)} * z_{3}+b_{4} \\ &z_{5}=w_{(1,5)} * z_{1}+w_{(2,5)} * z_{2}+w_{(3,5)} * z_{3}+b_{5} \end{aligned}$
该层的输出分别为: $f_{4}\left(z_{4}\right)$ 和 $f_{5}(z_{5})$ 。

1.1.3 输出层的计算

图4 计算输出层

输出层只有一个神经元： $neu_6$ 。该层的输入为：

$z^{(3)}=W^{(3)} *\left[z_{4}, z_{5}\right]^{T}+\left(b^{(3)}\right)^{T}$

即： $z_{6}=w_{(4,6)} * z_{4}+w_{(5,6)} * z_{5}+b_{6}$

因为该网络要解决的是一个二分类问题，所以输出层的激活函数也可以使用一个 Sigmoid 型函数，神经网络最后的输出为: $f_{6}\left(z_{6}\right)$ 。

1.2 反向传播的计算

在 1.1 节里，我们已经了解了数据沿着神经网络前向传播的过程，这一节我们来介绍更重要的反向传播的计算过程。假设我们使用随机梯度下降的方式来学习神经网络的参数，损失函数定义为 $\hat{{y}})$ ，其中y是该样本的真实类标。使用梯度下降进行参数的学习，我们必须计算出损失函数关于神经网络中各层参数（权重 ${w}$ 和偏置 $b$ ) 的偏导数。

假设我们要对第k层隐藏层的参数 $W^{(k)}$ 和 $b^{(k)}$ 求偏导数，即求 $\frac{\partial {L}({y}, \hat{y})}{\partial W^{(k)}}$ 和 $\frac{\partial {L}({y}, \hat{y})}{\partial b^{(k)}}$ 。假设 $Z^{(k)}$ 代表第 $k$ 层神经元的输入，即 $z^{(k)}=W^{(k)} * n^{(k-1)}+b^{(k)}$ ，其中 $n^{(k-1)}$ 为前一层神经元的输出，则根据链式法则有：

$\begin{aligned} &\frac{\partial {L}({y}, \hat{{y}})}{\partial W^{(k)}}=\frac{\partial {L}({y}, \hat{{y}})}{\partial z^{(k)}} * \frac{\partial z^{(k)}}{\partial W^{(k)}} \\ &\frac{\partial {L}({y}, \hat{{y}})}{\partial b^{(k)}}=\frac{\partial {L}({y}, \hat{{y}})}{\partial z^{(k)}} * \frac{\partial z^{(k)}}{\partial b^{(k)}} \end{aligned}$
因此，我们只需要计算偏导数 $\frac{\partial {L}({y}, \hat{y})}{\partial z^{(k)}} 、 \frac{\partial z^{(k)}}{\partial W^{(k)}}$ 和 $\frac{\partial z^{(k)}}{\partial b^{(k)}}$ 。

1.2.1 计算偏导数 $\frac{\partial z^{(k)}}{\partial W^{(k)}}$

前面说过，第 $k$ 层神经元的输入为: $z^{(k)}=W^{(k)} * n^{(k-1)}+b^{(k)}$ ，因此可以得到：

$\frac{\partial z^{(k)}}{\partial W^{(k)}}=\left[\begin{array}{c} \frac{\partial\left(W_{1:}^{(k)} * n^{(k-1)}+b^{(k)}\right)}{\partial W^{(k)}} \\ \vdots \\ \frac{\partial\left(W_{m:}^{(k)} * n^{(k-1)}+b^{(k)}\right)}{\partial W^{(k)}} \end{array}\right] \stackrel{初等变换}\Longrightarrow{{(n^{k-1})}^{T}}$

上式中， $W_{m:}^{(k)}$ 代表第k层神经元的权重矩阵 $W^{(k)}$ 的第m行， $W_{m n}{ }^{(k)}$ 代表第 $k$ 层神经元的权重矩阵 $W^{(k)}$ 的第m行中的第n列。

我们以1.1节中的简单神经网络为例，假设我们要计算第一层隐藏层的神经元关于权重矩阵的导数，则有：

$\frac{\partial z^{(1)}}{\partial W^{(1)}}=\left(x_{1}, x_{2}\right)^{T}=\left(\begin{array}{l}{x_{1}}\\{x_{2}}\end{array}\right)$

1.2.2 计算偏导数 $\frac{\partial z^{(k)}}{\partial b^{(k)}}$

因为偏置 $b$ 是一个常数项，因此偏导数的计算也很简单:
$\frac{\partial z^{(k)}}{\partial b^{(k)}}=\left[\begin{array}{ccc} \frac{\partial\left(W_{1:}{ }^{(k)} * n^{(k-1)}+b_{1}\right)}{\partial b_{1}} & \cdots & \frac{\partial\left(W_{1:}{ }^{(k)} * n^{(k-1)}+b_{1}\right)}{\partial b_{m}} \\ \vdots & \cdots & \vdots \\ \frac{\partial\left(W_{m:}^{(k)} * n^{(k-1)}+b_{m}\right)}{\partial b_{1}} & \cdots & \frac{\partial\left(W_{m:}{ }^{(k)} * n^{(k-1)}+b_{m}\right)}{\partial b_{m}} \end{array}\right]$
依然以第一层隐藏层的神经元为例，则有:
$\frac{\partial z^{(1)}}{\partial b^{(1)}}=\left[\begin{array}{lll} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array}\right]$

1.2.3 计算偏导数 $\frac{\partial {L}({y}, \hat{y})}{\partial z^{(k)}}$

偏导数 $\frac{\partial {L}(\mathbf{y}, \hat{y})}{\partial z^{(k)}}$ 又称为误差项 (error term，也称为“灵敏度”)，一般用 $\delta$ 表示，例如 $\boldsymbol{\delta}^{(1)}=\frac{\partial {L}({y}, \hat{y})}{\partial z^{(1)}}$ 是第一层神经元的误差项，其值的大小代表了第一层神经元对于最终总误差的影响大小。根据第一节的前向计算，我们知道第 $k+\mathbf{1}$ 层的输入与第 $k$ 层的输出之间的关系为:

$z^{(k+1)}=W^{(k+1)} * n^{(k)}+b^{k+1}$
又因为 $n^{(k)}=\boldsymbol{f}_{\boldsymbol{k}}\left(\boldsymbol{z}^{(\boldsymbol{k})}\right)$ ，根据链式法则，我们可以得到 $\boldsymbol{\delta}^{(\boldsymbol{k})}$ 为:

$\begin{aligned} \delta^{(k)} &=\frac{\partial {L}({y}, \hat{{y}})}{\partial z^{(k)}} \\ &=\frac{\partial n^{(k)}}{\partial z^{(k)}} * \frac{\partial z^{(k+1)}}{\partial n^{(k)}} * \frac{\partial {L}({y}, \hat{{y}})}{\partial z^{(k+1)}}\\ &=\frac{\partial n^{(k)}}{\partial z^{(k)}} * \frac{\partial z^{(k+1)}}{\partial n^{(k)}} * \delta^{(k+1)} \\ &=f_{k}^{\prime}\left(z^{(k)}\right) *\left(\left(W^{(k+1)}\right)^{T} * \delta^{(k+1)}\right) \end{aligned}$

由上式我们可以看到，第 $k$ 层神经元的误差项 $\boldsymbol{\delta}^{(\boldsymbol{k})}$ 是由第 $k + 1$ 层的误差项乘以第 ${k}+{1}$ 层的权重，再乘以第 ${k}$ 层激活函数的导数（梯度）得到的。这就是误差的反向传播。

现在我们已经计算出了偏导数 $\frac{\partial {L}(y, \hat{y})}{\partial z^{(k)}}, \frac{\partial z^{(k)}}{\partial W^{(k)}}$ 和 $\frac{\partial z^{(k)}}{\partial b^{(k)}}$ ，则 $\frac{\partial {L}({y}, \hat{y})}{\partial W^{(k)}}$ 和 $\frac{\partial {L}(y, \hat{y})}{\partial b^{(k)}}$ 可分别表示为：

$\begin{aligned} &\frac{\partial {L}({y}, \hat{{y}})}{\partial W^{(k)}}=\frac{\partial {L}({y}, \hat{{y}})}{\partial z^{(k)}} * \frac{\partial z^{(k)}}{\partial W^{(k)}}=\delta^{(k)} *\left(n^{(k-1)}\right)^{T} \\ &\frac{\partial {L}({y}, \hat{{y}})}{\partial b^{(k)}}=\frac{\partial {L}({y}, \hat{{y}})}{\partial z^{(k)}} * \frac{\partial z^{(k)}}{\partial b^{(k)}}=\delta^{(k)} \end{aligned}$

单纯的公式推导看起来有些枯燥，下面我们将实际的数据带入图1所示的神经网络中，完整的计算一遍。

2. 图解BP算法

图5 图解BP算法

我们依然使用如图5所示的简单的神经网络，其中所有参数的初始值如下：

输入的样本为（假设其真实类标为“1”）：

$\overrightarrow{{a}}=\left(x_{1}, x_{2}\right)=(1,2)$

第一层网络的参数为：

$W^{(1)}=\left[\begin{array}{l} w_{\left(x_{1}, 1\right)}, w_{\left(x_{2}, 1\right)} \\ w_{\left(x_{1}, 2\right)}, w_{\left(x_{2}, 2\right)} \\ w_{\left(x_{1}, 3\right)}, w_{\left(x_{2}, 3\right)} \end{array}\right]=\left[\begin{array}{ll} 2 & 1 \\ 1 & 3 \\ 3 & 2 \end{array}\right], \quad b^{(1)}=\left[b_{1}, b_{2}, b_{3}\right]^{T}=[1,2,3]^{T}$

第二层网络的参数为：

$W^{(2)}=\left[\begin{array}{l} w_{(1,4)}, w_{(2,4)}, w_{(3,4)} \\ w_{(1,5)}, w_{(2,5)}, w_{(3,5)} \end{array}\right]=\left[\begin{array}{lll} 1 & 1 & 2 \\ 3 & 2 & 2 \end{array}\right], \quad b^{(2)}=\left[b_{4}, b_{5}\right]^{T}=[2,1]^{T}$

第三层网络的参数为：

$W^{3}=\left[w_{(4,6)}, w_{(5,6)}\right]=[1,3], \quad b^{(3)}=\left[b_{6}\right]=[2]$
假设所有的激活函数均为 Logistic 函数: $f^{(k)}(x)=\frac{1}{1+e^{-x}}$ 。使用均方误差函数作为损失函数:
$\hat{{y}})={E}({y}-\hat{{y}})^{2}$
为了方便求导，我们将损失函数简化为: $\hat{{y}})=\frac{1}{2} \sum({y}-\hat{{y}})^{2} 。$

2.1 前向传播

我们首先初始化神经网络的参数，计算第一层神经元：

$\begin{aligned} z_{1} &=w_{\left(x_{1}, 1\right)} * x_{1}+w_{\left(x_{2}, 1\right)} * x_{2}+b_{1} \\ &=2 * 1+1 * 2+1 \\ &=5 \\ \end{aligned}$

$f_{1}\left(z_{1}\right)=\frac{1}{1+e^{-z_{1}}}=0.993307149075715$

上图中我们计算出了第一层隐藏层的第一个神经元的输入 $z_{1}$ 和输出 $f_{1}\left(z_{1}\right)$ ，同理可以计算第二个和第三个神经元的输入和输出:

$\begin{aligned} z_{2} &=w_{\left(x_{1}, 2\right)} * x_{1}+w_{\left(x_{2}, 2\right)} * x_{2}+b_{2} \\ &=1 * 1+3 * 2+2 \\ &=9 \end{aligned}$

$f_{2}\left(z_{2}\right)=\frac{1}{1+e^{-z_{2}}}=0.999876605424014$

$\begin{aligned} z_{3} &=w_{\left(x_{1}, 3\right)} * x_{1}+w_{\left(x_{2}, 3\right)} * x_{2}+b_{3} \\ &=3 * 1+2 * 2+3=10 \end{aligned}$

$\begin{aligned} f_{3}\left(z_{3}\right)=& \frac{1}{1+e^{-z_{3}}}=0.999954602131298 \end{aligned}$

接下来是第二层隐藏层的计算，首先我们计算第二层的第一个神经元的输入 $z_{4}$ 和输出 $f_{4}\left(z_{4}\right)$ :

$\begin{aligned} z_{4}&=w_{(1,4)} * f_{1}\left(z_{1}\right)+w_{(2,4)} * f_{2}\left(z_{2}\right)+w_{(3,4)} * f_{3}\left(z_{3}\right)+b_{4} \\ &=1 * 0.993307149075715+1 * 0.999876605424014+2 * 0.999954602131298+2 \\ &=5.993092958762325 \end{aligned}$
$f_{4}\left(z_{4}\right)=\frac{1}{1+e^{-z_{4}}}=0.997510281884102$

同样方法可以计算该层的第二个神经元的输入 $z_{5}$ 和输出 $f_{5}\left(z_{5}\right)$ :

$\begin{aligned} z_{5}&=w_{(1,5)} * f_{1}\left(z_{1}\right)+w_{(2,5)} * f_{2}\left(z_{2}\right)+w_{(3,5)} * f_{3}\left(z_{3}\right)+b_{5}\\ &=3 * 0.993307149075715+3 * 0.999876605424014+2 * 0.999954602131298+1 \\ &=8.979460467761783 \end{aligned}$

$f_{5}\left(z_{5}\right)=\frac{1}{1+e^{-z_{5}}}=0.999874045072167$

最后计算输出层的输入 $z_{6}$ 和输出 $f_{6}\left(z_{6}\right)$ :

2.2 误差反向传播

首先计算输出层的误差项 $\delta_{3}$ ，我们的误差函数为 $\hat{{y}})=\frac{1}{2} \sum({y}-\hat{{y}})^{2}$ ，由于该样本的类标为“1"，而预测值为 $0.997520293823002$ ，因此误差为 $0.002479706176998$ ，输出层的误差项为:
$\begin{aligned} \delta_{3}&=\frac{\partial {L}({y}, \hat{y})}{\partial z^{(3)}}=\frac{\partial {L}({y}, \hat{{y}})}{\partial n^{(3)}} * \frac{\partial n^{(3)}}{\partial z^{(3)}}=[-0.002479706176998] * f^{(3)\prime}\left(z^{3}\right) \\ &=[0.002473557234274] *[-0.002479706176998] \\ &=[-0.000006133695153] \end{aligned}$

接着计算第二层隐藏层的误差项，根据误差项的计算公式有：

$\begin{aligned} \delta^{(2)}&=\frac{\partial {L}({y}, \hat{y})}{\partial z^{(2)}}=f^{(2)\prime}\left(z^{(2)}\right) *\left(\left(W^{(3)}\right)^{T} * \delta^{(3)}\right) \\ &=\left[\begin{array}{cc} f_{4}^{\prime}\left(z_{4}\right) & 0 \\ 0 & f_{5}^{\prime}\left(z_{5}\right) \end{array}\right] *\left(\left[\begin{array}{l} 1 \\ 3 \end{array}\right] *[-0.000006133695153]\right) \\ &=\left[\begin{array}{c} 0.002483519419601 \\ 0 & 0.000125939063189 \end{array}\right] *\left[\begin{array}{l} -0.000006133695153 \\ -0.000018401085459 \end{array}\right] \\ &=\left[\begin{array}{c} -0.000000015233151 \\ -0.000000002317415 \end{array}\right] \end{aligned}$

最后是计算第一层隐藏层的误差项：

$\begin{aligned} \delta^{(1)}&=\frac{\partial {L}({y}, \hat{{y}})}{\partial n^{(1)}}=f^{(1)^{\prime}}\left(n^{(1)}\right) *\left(\left(W^{(2)}\right)^{T} * \delta^{(2)}\right) \\ &=\left[\begin{array}{ccc} f_{1}^{\prime}\left(z_{1}\right) & 0 & 0 \\ 0 & f_{2}^{\prime}\left(z_{2}\right) & 0 \\ 0 & 0 & f_{3}^{\prime}\left(z_{3}\right) \end{array}\right] \\ &=\left[\begin{array}{ccc} 0.006648056670790 & 0 & 0 \\ 0 & 0.000123379349765 & 0 \\ 0 & 0 & 0.000045395807735 \end{array}\right] \\ &*\left(\left[\begin{array}{lll} 1 & 1 & 2 \\ 3 & 2 & 2 \end{array}\right]^{T} *\left[\begin{array}{l} -0.000000015233151 \\ -0.000000002317415 \end{array}\right]\right) \\ &=\left[\begin{array}{l} -0.000000000147490 \\ -0.000000000002451 \\ -0.000000000001593 \end{array}\right] \end{aligned}$

2.3 更新参数

上一小节中我们已经计算出了每一层的误差项，现在我们要利用每一层的误差项和梯度来更新每一层的参数，权重 $W$ 和偏置 $b$ 的更新公式如下：

$\begin{gathered} W^{(k)}=W^{(k)}-\alpha\left(\delta^{(k)}\left(n^{(k-1)}\right)^{T}+W^{(k)}\right) \\ b^{(k)}=b^{(k)}-\alpha \delta^{(k)} \end{gathered}$

$\begin{aligned} W^{(1)}&=W^{(1)}-0.1 *\left(\delta^{(1)}\left(n^{(0)}\right)^{T}+W^{(1)}\right) \\ &=\left[\begin{array}{ll} 2 & 1 \\ 1 & 3 \\ 3 & 2 \end{array}\right]-0.1 *\left(\left[\begin{array}{ll} -0.000000000147490 \\ -0.000000000002451 \\ -0.000000000001593 \end{array}\right] *\left[\begin{array}{ll} x_{1} & x_{2} \end{array}\right]+\left[\begin{array}{ll} 2 & 1 \\ 1 & 3 \\ 3 & 2 \end{array}\right]\right) \\ &=\left[\begin{array}{ll} 2 & 1 \\ 1 & 3 \\ 3 & 2 \end{array}\right]-0.1 *\left(\left[\begin{array}{ll} -0.000000000147490 \\ -0.000000000002451 \\ -0.000000000001593 \end{array}\right] *\left[\begin{array}{ll} 1 & 2 \end{array}\right]+\left[\begin{array}{ll} 2 & 1 \\ 1 & 3 \\ 3 & 2 \end{array}\right]\right) \\ &=\left[\begin{array}{ll} 2 & 1 \\ 1 & 3 \\ 3 & 2 \end{array}\right]-0.1 *\left[\begin{array}{ll} 1.999999999852510 & 0.999999999705020 \\ 0.999999999997549 & 2.999999999995098 \\ 2.999999999998407 & 1.999999999996814 \end{array}\right] \\ &=\left[\begin{array}{ll} 1.800000000014749 & 0.900000000029498 \\ 0.900000000000245 & 2.700000000000490 \\ 2.700000000000159 & 1.800000000000319 \end{array}\right] \end{aligned}$

$\begin{aligned} b^{(1)}&=b^{(1)}-\alpha \delta^{(1)}\\ &=[1,2,3]^{T}-0.1 *\left[\begin{array}{l}-0.000000000147490 \\ -0.000000000002451 \\ -0.000000000001593\end{array}\right]\\ &=\left[\begin{array}{l}0.999999999985251 \\ 1.999999999999755 \\ 2.999999999999841\end{array}\right]\\ \end{aligned}$