BP算法详解-CSDN博客

本文链接：https://blog.csdn.net/iterate7/article/details/79610700

bp算法

又称反向传导算法，英文： back propagation。
我们了解，前向传导，可以根据W，b来计算出隐层、输出层的各个神经元的值以及对应的激活值，最终得到输出。如果输出和我们的目标存在误差，这个误差可以用成本函数表示（loss function），那么我们就需要反向的把这个误差分配到前面的各个传导的过程中，也就是W和B上；我们需要知道每个神经元带来了多少误差，这个影响程度我们用“残差”的概念来表示。
有了残差和目标函数，我们可以对参数W和B随机梯度下降法来求解，即：求导后表示为残差的某种共识。最后W的更新，与：残差、当前神经元的激活函数求导、输入值；由这三部分来共同决定参数的更新。如此反复迭代直到收敛。从而求出W和B。

这个算法的核心则是：残差的求解；因为激活函数是事先定义的，输入值也是前向算法中已经计算好的。那么问题则归结为误差反向传导的时候，如何分配因子。

前向过程

公式回顾和例子

a (2) 1 = f (W (1) 11 x 1 + W (1) 12 x 2 + W (1) 13 x 3 + b (1) 1)

$a_{1}^{(2)}=f(W_{11}^{(1)}x1+W_{12}^{(1)}x2+W_{13}^{(1)}x3+b_{1}^{(1)})$
这个是计算下一层第一个神经元的过程，就是利用前一层权重W和输入X线性组合后，加上偏置项，最后利用激活函数变换得到最终的结果。
这里需要澄清一下：

x1,x2,x3 x 1 , x 2 , x 3 $x_1,x_2,x_3$ 代表的是三个特征值，而不是三个instance，这地方要清晰。这一点在逻辑回归中更好理解，

X=[x1,x2,...,xn] X = [ x 1 , x 2 , . . . , x n ] $X=[x_1,x_2,...,x_n]$ 代表n个特征表示的一个样本数据，映射到

Y=+1,−1 Y = + 1 , − 1 $Y={+1,-1}$ (假设是二分类）。
而我们的第i个训练数据表示为

(X(i),y(i)) ( X ( i ) , y ( i ) ) $(X^{(i)},y^{(i)})$ .

例子

利用例子理解神经网络。

三层神经网络。

说明：

第一层是输入层，有2个神经元，i1和i2；截距项为b1=1；
第二层是隐含层，包括神经元h1，h2和截距项b2；
第三层是输出层o1,o2；
神经元之间的权重用w表示；
激活函数是sigmoid函数；

初始化

输入数据：i1=0.05, i2=0.10;
输出数据：o1=0.01, o2=0.99;
初始权重： w1=0.15, w2=0.20, w3=0.25, w4=0.30, w5=0.40, w6=0.45, w7=0.50, w8=0.55

目标：通过fp和bp算法，训练w和b，使得输入和输出匹配，拟合已有的数据。

step1:输入层到隐含层

神经元

\begin{aligned} (1) & n e t_{h 1} & = w_{1} * i_{1} + w_{2} * i 2 + b 1 * 1 \\ (2) & n e t_{h 1} & = 0.05 * 0.15 + 0.10 * 0.20 + 0.35 * 1 = 0.3775 \end{aligned}

$\begin{align} net_{h1}&=w_1*i_1+w_2*i2+b1*1 \\ net_{h1}&=0.05*0.15+0.10*0.20+0.35*1=0.3775 \end{align}$
注意net层只是线性组合，还没有执行激活函数；

o u t h 1 o u t h 2 = 1 1 + e - n e t h 1 = 0.5932 = 0.5968 (3) (4)

$\begin{align} out_{h1}&=\frac{1}{1+e^{-net_{h1}}}=0.5932\\ out_{h2}&=0.5968 \end{align}$
这一步是执行激活操作。
参考：

each neuron is composed of two units. First unit adds products of weights coefficients and input signals. The second unit realise nonlinear function, called neuron activation function. Signal e is adder output signal, and y = f(e) is output signal of nonlinear element. Signal y is also output signal of neuron.

http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html （这篇后面的推导有问题，思路是对的。主要是负梯度有误，另外，一般用残差推导，这地方用的误差，残差=误差*激活求导。）

step2:隐含层到输出层

n e t o 1 n e t o 1 o u t o 1 o u t o 2 = w 5 * o u t h 1 + w 6 * o u t h 2 + b 2 * 1 = 0.4 * .0 .5932 + 0.45 * .5968 + 0.6 * 1 = 1.1 = 1 1 + e - n e t o 1 = 0.7513 = 0.7729 (5) (6) (7) (8)

$\begin{align} net_{o1}&=w_5*out_{h1}+w_6*out_{h2}+b2*1 \\ net_{o1}&=0.4*.0.5932+0.45*.5968+0.6*1 = 1.1\\ out_{o1}&=\frac{1}{1+e^{-net_{o1}}} =0.7513 \\ out_{o2}&=0.7729 \end{align}$
这样前向传播的过程就结束了，我们得到输出值为【0.7513,0.7729】得到多少个输出取决于分类标签的维度，比如打算分成两个类，则为2；如果打算分成10个类，则有10个神经元。
与实际值【0.01,0.99】相差较大，开始计算误差，进行反向传播，更新权重，重新计算。

step3：计算误差

E t o t a l = \sum 1 2 (t a r g e t - o u t p u t) 2

$E_{total} = \sum{\frac{1}{2}(target-output)^2}$
有两个输出，误差分别计算o1和o2，总误差为两者之和：

E o 1 = 1 2 (t a r g e t o 1 - o u t p u t o 1) 2 = 1 2 (0.01 - 0.75) 2 = 0.2748

$E_{o1} = {\frac{1}{2}(target_{o1}-output_{o1})^2} = {\frac{1}{2}(0.01-0.75)^2}=0.2748$

E t o t a l = E o 1 + E o 2 = 0.2748 + 0.0235 = 0.2984

$E_{total} = E_{o1} +E_{o2} = 0.2748+0.0235=0.2984$
误差就是目标函数，也就是loss function。没有目标的优化都是耍流氓。

误差的传播

误差从哪里来，就用梯度转向那里去；为了找到源头，则要一步步的从后往前传递，所以才有了：反向传播；链式求导这两个概念。

针对我们的传播，大体上就是两个核心步骤：线性组合的求导；以及激活函数的求导。如此根据关联一步步相乘，这也是链式求导的内涵。见下图：

由于e和cd有关系；而cd又和ab有关系；于是梯度的链式法则如图所示。（从哪里来，到哪里去！）

针对我们的神经网络：

step4：输出层反向到隐含层

我们依照误差先输出节点求导、再激活函数求导、然后线性组合求导的原则可知：

\partial E t o t a l \partial w 5 = \partial E t o t a l \partial o u t o 1 \cdot \partial o u t o 1 \partial n e t o 1 \cdot \partial n e t o 1 \partial w 5

$\frac{\partial{E_{total}}}{\partial{w5}} = \frac{\partial{E_{total}}}{\partial{out_{o1}}} \cdot \frac{\partial{out_{o1}}}{\partial{net_{o1}}} \cdot \frac{\partial{net_{o1}}}{\partial{w5}}$

\partial E t o t a l \partial w 5 = \partial E t o t a l \partial o u t o 1 \cdot \partial o u t o 1 \partial n e t o 1 \cdot \partial n e t o 1 \partial w 5 = - (t a r g e t o 1 - o u t o 1) \cdot (o u t o 1 (1 - o u t o 1)) \cdot o u t h 1 = δ o 1 \cdot o u t h 1 = 0.7413 * 0.1868 * 0.5932 = 0.0821 (9) (10) (11) (12)

$\begin{align} \frac{\partial{E_{total}}}{\partial{w5}} &= \frac{\partial{E_{total}}}{\partial{out_{o1}}} \cdot \frac{\partial{out_{o1}}}{\partial{net_{o1}}} \cdot \frac{\partial{net_{o1}}}{\partial{w5}} \\ &=-(target_{o1}-out_{o1})\cdot (out_{o1}(1-out_{o1}))\cdot out_{h1} \\ &=\delta_{o1} \cdot out_{h1} \\ &=0.7413*0.1868*0.5932 = 0.0821 \end{align}$

有了梯度，则用负梯度更新变量则可以保证目标函数下降最快。

w 5 : = w 5 - η * \partial E t o t a l \partial w 5 = 0.4 - 0.5 * 0.0821 = 0.3589 (13) (14) (15)

$\begin{align} w_5 :&= w_5- \eta * \frac{\partial{E_{total}}}{\partial{w5}} \\&= 0.4-0.5*0.0821\\ &= 0.3589 \end{align}$

w 6 w 7 w 8 = 0.4086 = 0.5113 = 0.5614 (16) (17) (18)

$\begin{align} w_6 &= 0.4086 \\ w_7 &= 0.5113\\ w_8 &= 0.5614\\ \end{align}$
这里写图片描述

step5:隐含层到隐含层

现在对w1求偏导；同理可以利用链式法则：

\partial E t o t a l \partial w 1 = \partial E t o t a l \partial o u t h 1 \cdot \partial o u t h 1 \partial n e t h 1 \cdot \partial n e t h 1 \partial w 1 (19)

$\begin{align} \frac{\partial{E_{total}}}{\partial{w1}} &= \frac{\partial{E_{total}}}{\partial{out_{h1}}} \cdot \frac{\partial{out_{h1}}}{\partial{net_{h1}}} \cdot \frac{\partial{net_{h1}}}{\partial{w1}} \end{align}$

求导分三块，中间部分的求导是直接的，激活函数；最后一部分求导也是线性求导，直接的。
第一部分则比较复杂一些，因为 $out_{h1}$ 影响了o1和o2，所以反向求导的时候，则需要关联到 $E_{o1}, E_{o2}$

那么我们就按照h1到最后的这条路径，一个个求导过来，并按照有多少路径累加，如果h1发出了3个神经元，则就需要反向三个梯度的累加。

\partial E t o t a l \partial w 1 = (\sum o \partial E t o t a l \partial o u t o \partial o u t o \partial n e t o \partial n e t o \partial o u t h 1) \cdot \partial o u t h 1 \partial n e t h 1 \cdot \partial n e t h 1 \partial w 1 (20)

$\begin{align} \frac{\partial{E_{total}}}{\partial{w1}} &= (\sum_{o}\frac{\partial E_{total}}{\partial out_{o} } \frac{\partial out_{o} }{\partial net_{o} } \frac{\partial net_{o}}{\partial out_{h1} } ) \cdot \frac{\partial{out_{h1}}}{\partial{net_{h1}}} \cdot \frac{\partial{net_{h1}}}{\partial{w1}} \end{align}$

正向的时候 w1->net(h1)->out(h1)->net(o1,o2,xxx)->out(o1,o2,xxx)->Etotal
反向求导的时候只要有关系，就必须求导相乘。

w 1 : = w 1 - η * \partial E t o t a l \partial w 1 = 0.1498 (21) (22)

$\begin{align} w_1 :&= w_1- \eta * \frac{\partial{E_{total}}}{\partial{w1}} \\&= 0.1498 \end{align}$
同理可求其他参数。

公式再归纳

从上面的示例中，我们大体了解了整个过程，那么我们再用公式推导一番。注意下面的公式将按照顺序直接给出，减少，防止思路中断。

(x (1), y (1)), \dots, (x (m), y (m)) (1. m 个 样 本)

$\begin{align} { (x^{(1)},y^{(1)}) ,\dots, (x^{(m)},y^{(m)}) \tag{1. m个样本} } \end{align}$

J (W, b; x, y) = 1 2 | | h W, b (x) - y | | 2 (2. 损 失 函 数)

$\begin{align} J(W,b;x,y) = \frac{1}{2}||h_{W,b(x)}-y ||^2 \tag{2. 损失函数} \end{align}$

J (W, b) = 1 m \sum J (W, b; x (i), y (i)) = 1 m \sum i 1 2 | | h W, b (x (i)) - y (i) | | 2 (23) (3. 损 失 函 数)

$\begin{align} J(W,b) &= \frac{1}{m}\sum{J(W,b;x^{(i)},y^{(i)})} \\ &=\frac{1}{m}\sum_{i}{\frac{1}{2}||h_{W,b}(x^{(i)})-y^{(i)} ||^2 } \tag{3. 损失函数} \end{align}$

W (l) i j b (l) i = W (l) i j - α \partial J ( W , b ) \partial W ( l ) i j = b (l) i - α \partial J ( W , b ) \partial b ( l ) i (24) (4. 梯 度 公 式)

$\begin{align} W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial J(W,b)}{\partial W_{ij}^{(l)} }\\ b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial J(W,b)}{\partial b_{i}^{(l)} } \tag{4. 梯度公式} \end{align}$

δ (l) i = \partial J ( W , b , x , y ) \partial z l i (5. 残 差 定 义)

$\begin{align} \delta_{i}^{(l)} = \frac{\partial J(W,b,x,y)}{\partial z_i^{l}} \tag{5. 残差定义} \end{align}$

δ (n l) i = \partial J ( W , b , x , y ) \partial z n l i = \partial 1 2 \sum s n l j = 1 ( y j - f ( z n l j ) ) 2 \partial z n l i = (y i - f (z n l i)) f' (z n l i) = (y i - a n l i) f' (z n l i) (25) (26) (27) (6. 输 出 层 残 差)

$\begin{align} \delta_{i}^{(n_l)} &= \frac{\partial J(W,b,x,y)}{\partial z_i^{n_l}}\\ &=\frac{\partial \frac{1}{2} \sum_{j=1}^{s_{nl}} (y_j-f(z_j^{nl}))^2}{\partial z_i^{n_l}} \\ &=(y_i-f(z_i^{nl})) f'(z_i^{nl}) \\ &=(y_i-a_i^{nl}) f'(z_i^{nl}) \tag{6. 输出层残差} \end{align}$