本文链接：https://blog.csdn.net/sinat_34474705/article/details/54176584

最近看了一下BP神经网络(Backpropagation Neural Networks)，发现很多资料对于BP神经网络的讲解注重原理，而对于反向传播公式的推导介绍的比较简略，故自己根据《PATTERN RECOGNITION AND MACHINE LEARNING》这本书的思路推导了一下反向传播的过程，记录在这里，以便以后看。对于BP神经网络的工作原理此处就不再赘述，周志华大牛的《机器学习》中介绍的很详细。

PS: 本人第一次写博客，不足之处还请见谅。

1. BP网络模型及变量说明

1.1 模型简图

1.2 变量说明：

$m_l$ ：第 $l$ 层神经元个数
$x_p^{(1)}$ : 输入层第 $p$ 个神经元， $p=1...m_1$ ；
$y_k$ : 输出层第 $k$ 的神经元的输出， $k=1...m_{l+1}$ ；
$t_k$ ：输出层第 $k$ 的神经元的目标值， $k=1...m_{l+1}$ ；
$z_j^{(l)}$ ：第 $l$ 层的第 $j$ 的神经元的输入；
$a_j^{(l)}$ ：第 $l$ 层第 $j$ 个神经元的输出；
$a_0^{(l)}$ ：第 $l$ 层的偏置项；
$w_{ji}^{(l)}$ ：第 $l-1$ 层第 $i$ 个神经元与第 $l$ 层第 $j$ 个神经元的连接权值；
$h(.)$ ：激活函数，这里假设每一层各个神经元的激励函数相同（实际中可能不同）；
$E_p$ ：网络在第 $p$ 个样本输入下的偏差， $n=1...N$ ；
$N$ ：样本总数

2. 误差反向传播相关推导

2.1 正向传播（forward-propagation）

正向传播的思想比较直观，最主要的是对于激活函数的理解。对于网络中第 $l$ 层的第 $j$ 个神经元，它会接受来自第 $l-1$ 层所有神经元的信号，即：

z (l) j = \sum i = 1 m l - 1 w j i a (l - 1) i + a (l - 1) 0

$z_j^{(l)}=\sum_{i=1}^{m_{l-1}} w_{ji}a_i^{(l-1)}+a_0^{(l-1)}$
如果令

wj0=1 $w_{j0}=1$ ，可以将公式简写为：

z (l) j = \sum i = 0 m l - 1 w j i a (l - 1) i

$z_j^{(l)}=\sum_{i=0}^{m_{l-1}} w_{ji}a_i^{(l-1)}$
则经过该神经元后的输出值为：

a (l) j = h (z (l) j)

$a_j^{(l)}=h(z_j^{(l)})$
对于多分类问题，网络输出层第

k $k$ 个神经元输出可表示为：

y k = a (l + 1) k = h (z j) = h (\sum j = 0 m l w k j a (l) j)

$y_k=a_k^{(l+1)}=h(z_j)=h(\sum_{j=0}^{m_l} w_{kj}a_j^{(l)})$
这里说明一下，BP神经网络中激活函数通常会取

sigmoid $sigmoid$ 函数或

tanh $tanh$ 函数，不清楚的可以百度一下这两个函数，这里不再赘述。

2.2 代价函数（cost function）

由2.1节公式可以得到BP网络在一个样本下的输出值，我们定义平方和误差函数（sum-of-square error function）如下：

E p = \sum k = 1 m l + 1 1 2 (y k - t k) 2

$E_p=\sum_{k=1}^{m_{l+1}} \dfrac{1}{2}(y_k-t_k)^2$
所有样本输入下，网络的总误差为：

E N = \sum p = 1 N E p

$E_N=\sum_{p=1}^{N} E_p$

2.3 反向传播（back-propagation）

这是BP神经网络最核心的部分，误差从输出层逐层反向传播，各层权值通过梯度下降法（gradient descent algorithm）进行更新，即：

w : = w - η ▽ E p (w)

$w:=w-\eta\bigtriangledown{E_p}(w)$
上式中，

η $\eta$ 是每次更新的步长，

▽Ep(w) $\bigtriangledown{E_p}(w)$ 是第

p $p$ 个样本输入下的输出偏差对某一层权值的偏导数，表示每输入一个样本更新一次参数。

下面我们以 $w_{ji}^{(l)}$ 为例推导梯度项：

\partial E p \partial w ( l ) j i = = \partial E p \partial z ( l ) j \partial z ( l ) j \partial w ( l ) j i \partial E p \partial z ( l ) j a (l - 1) i

$\begin{eqnarray} \dfrac{\partial E_p}{\partial w_{ji}^{(l)}} &=& \dfrac{\partial E_p}{\partial z_j^{(l)}} \dfrac{\partial z_j^{(l)}}{\partial w_{ji}^{(l)}}\\ &=&\dfrac{\partial E_p}{\partial z_j^{(l)}} a_i^{(l-1)} \end{eqnarray}$

这里我们定义 $\delta_j^{(l)}=\dfrac{\partial E_p}{\partial z_j^{(l)}}$ ，对于输出层，可以得出 $\delta_k^{(l+1)}=y_k-t_k=a_k^{(l+1)}-t_k$ ，则上式可表示为：

\partial E p \partial w ( l ) j i = δ (l) j a (l - 1) i

$\dfrac{\partial E_p}{\partial w_{ji}^{(l)}} = \delta_j^{(l)} a_i^{(l-1)}$

现在问题转换为求解 $\delta_k^{(l+1)}$ :

δ (l) j = = \partial E p \partial z ( l ) j \sum k = 1 m l + 1 \partial E p \partial z ( l + 1 ) k \partial z ( l + 1 ) k \partial z ( l ) j

$\begin{eqnarray} \delta_j^{(l)} &=& \dfrac{\partial E_p}{\partial z_j^{(l)}}\\ &=& \sum_{k=1}^{m_{l+1}} \dfrac{\partial E_p}{\partial z_k^{(l+1)}} \dfrac{\partial z_k^{(l+1)}}{\partial z_j^{(l)}}\\ \end{eqnarray}$

根据 $\delta$ 的定义可知 $\dfrac{\partial E_p}{\partial z_k^{(l+1)}} = \delta_k^{(l+1)}$ ，代入上式，则：

δ (l) j = = \sum k = 1 m l + 1 δ (l + 1) k \partial z ( l + 1 ) k \partial z ( l ) j \sum k = 1 m l + 1 δ (l + 1) k \partial z ( l + 1 ) k \partial a ( l ) j \partial a ( l ) j \partial z ( l ) j

$\begin{eqnarray} \delta_j^{(l)} &=& \sum_{k=1}^{m_{l+1}} \delta_k^{(l+1)} \dfrac{\partial z_k^{(l+1)}}{\partial z_j^{(l)}}\\ &=& \sum_{k=1}^{m_{l+1}} \delta_k^{(l+1)} \dfrac{\partial z_k^{(l+1)}}{\partial a_j^{(l)}} \dfrac{\partial a_j^{(l)}}{\partial z_j^{(l)}} \end{eqnarray}$

根据 $z_k^{(l+1)}$ 和 $a_j^l$ 的定义可知：

\partial z ( l + 1 ) k \partial a ( l ) j = w (l + 1) k j \partial a ( l ) j \partial z ( l ) j = h' (z (l) j)

$\begin{eqnarray} \dfrac{\partial z_k^{(l+1)}}{\partial a_j^{(l)}} = w_{kj}^{(l+1)}\\ \dfrac{\partial a_j^{(l)}}{\partial z_j^{(l)}} = h'(z_j^{(l)}) \end{eqnarray}$

代入上式得：

δ (l) j = = \sum k = 1 m l + 1 δ (l + 1) k w (l + 1) k j h' (z (l) j) h' (z (l) j) \sum k = 1 m l + 1 w (l + 1) k j δ (l + 1) k

$\begin{eqnarray} \delta_j^{(l)} &=& \sum_{k=1}^{m_{l+1}} \delta_k^{(l+1)} w_{kj}^{(l+1)} h'(z_j^{(l)})\\ &=& h'(z_j^{(l)}) \sum_{k=1}^{m_{l+1}} w_{kj}^{(l+1)} \delta_k^{(l+1)} \end{eqnarray}$

由此我们得到了误差从输出层向低层反向传播的递推公式，进而可以求出误差对于每一层权值的梯度 $\bigtriangledown{E_p}(w)$