人工神经网络 backpropagation algorithm

最新推荐文章于 2021-09-16 11:45:30 发布

howardact

最新推荐文章于 2021-09-16 11:45:30 发布

阅读量767

点赞数 1

分类专栏： machineLearning

本文链接：https://blog.csdn.net/howardact/article/details/54291594

版权

machineLearning 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

ann人工神经网络bp算法python实现

1、单个神经元

1.1、单个神经元的表示方法：

这代表一行数据的处理，即 $x_1,x_2,x_3$ 属于一个样本的三个维度，输出为这个样本的激活函数的值。

h W, b (x) = f (z) = f (W T x) = f (\sum 3 i = 1 W i x i + b)

$\textstyle h_{W,b}(x) = f(z)=f(W^Tx) = f(\sum_{i=1}^3 W_{i}x_i +b)$

1.2、激励函数几种不同形式：

sigmoid函数

f(z)=11+exp(−z)
- sigmoid函数的导数：
  $f' (z) = f (z) (1 - f (z))$ $f'(z) = f(z) (1-f(z))$
tanh函数

f(z)=tanh(z)=ez−e−zez+e−z
- tanh函数的导数：
  $f' (z) = 1 - (f (z)) 2$ $f'(z) = 1- (f(z))^2$
rectified linear activation function

f(z)=max(0,x)
- 导数为：
f′(z)={01z<=0z>0

以下是这几种损失函数的函数图。

2、神经网络模型

令 $n_l$ 表示这个神经网络的层数，这个神经网络共有3层，及 $n_l=3$ 。
$L_l$ 是输入层， $L_{nl}$ 是输出层，中间为隐含层。

上图中神经网络的参数为：

(W, b) = (W (1), b (1), W (2), b (2))

$(W,b) = (W^{(1)}, b^{(1)}, W^{(2)}, b^{(2)})$

$W^{(l)}_{ij}$ 表示 $l$ 层到 $l+1$ 层的权值矩阵或向量， $i$ 代表 $l+1$ 层， $j$ 代表 $l$ 层的索引。
$W^{(1)} \in \Re^{3\times 3}$
$\ W^{(2)} \in \Re^{1\times 3}$
$a^{(l)}_i$ 表示第 $i$ 的激活函数的结果 $l$
对于输入层即 $l=1$ ， $a^{(1)}_i = x_i$ ， $i表示一个样本的第i列$

递推公式为：

a l + 1 i = f (z l + 1 i) = f (W l i \cdot x + b l)

$a_{i}^{l+1}=f(z_{i}^{l+1})=f(W_{i\cdot}^{l}x+b^l)$
从输入层到输出层的计算详细过程如下：

a 21 a 22 a 23 h W, b (x) = a 31 = = = = f (W 111 x 1 + W 112 x 2 + W 113 x 3 + b 11) f (W 121 x 1 + W 122 x 2 + W 123 x 3 + b 12) f (W 131 x 1 + W 132 x 2 + W 133 x 3 + b 13) f (W 211 x 1 + W 212 x 2 + W 213 x 3 + b 21) (1) (2) (3) (4)

$\begin{eqnarray} a_{1}^{2} &=& f(W_{11}^{1}x_1 +W_{12}^{1}x_2+W_{13}^{1}x_3 + b_{1}^{1}) \\a_{2}^{2 } &=& f(W_{21}^{1}x_1 + W_{22}^{1}x_2 + W_{23}^{1}x_3+b_{2}^{1}) \\a_{3}^{2} &=& f(W_{31}^{1}x_1 + W_{32}^{1}x_2 + W_{33}^{1}x_3+b_{3}^{1}) \\h_{W,b}(x)=a_{1}^{3}&=&f(W_{11}^{2}x_1 + W_{12}^{2}x_2 + W_{13}^{2}x_3+b_{1}^{2}) \end{eqnarray}$

输出层为多层时，神经网络的示意图如下：

3、backpropagation algorithm

每个样本对应的损失为：

J (W, b; x, y) = 1 2 ∥ h W, b (x) - y ∥ 2 . (5)

$\begin{align} J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2. \end{align}$
整体的损失函数加上对权重系数的正则化

J (W, b) = = [1 m \sum i = 1 m J (W, b, x i, y i)] + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2 [1 m \sum i = 1 m (1 2 ∥ h W, b (x) - y ∥ 2)] + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2 (6) (7)

$\begin{eqnarray} J(W,b) &=& \left[ \frac{1}{m}\sum_{i=1}^{m}J(W,b,x^{i},y^{i})\right] + \frac{\lambda}{2}\sum_{l=1}^{n_l -1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(W_{ji}^{(l)})^2 \\ &=& \left[ \frac{1}{m}\sum_{i=1}^{m}( \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2)\right] + \frac{\lambda}{2}\sum_{l=1}^{n_l -1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(W_{ji}^{(l)})^2 \end{eqnarray}$

反向传播的算法过程

1、正向传播，计算每层的激励函数值

a l + 1 i = f (z l + 1 i) = f (W l i \cdot x + b l)

$a_{i}^{l+1}=f(z_{i}^{l+1})=f(W_{i\cdot}^{l}x+b^l)$
2、利用y值和激励函数值计算输出层的’error term’

δ (n l) i = \partial \partial z ( n l ) i 1 2 ∥ y - h W, b (x) ∥ 2 = - (y i - a (n l) i) \cdot f' (z (n l) i) (8)

$\begin{align} \delta^{(n_l)}_i = \frac{\partial}{\partial z^{(n_l)}_i} \;\; \frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i) \end{align}$
3、利用初值W，计算隐含层的‘error term’

δ (l) i = (\sum j = 1 s l + 1 W (l) j i δ (l + 1) j) f' (z (l) i)

$\delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i)$
4、计算每个样本的偏导。

\nabla W (l) J (W, b; x, y) \nabla b (l) J (W, b; x, y) = δ (l + 1) (a (l)) T, = δ (l + 1) . (9) (10)

$\begin{align} \nabla_{W^{(l)}} J(W,b;x,y) &= \delta^{(l+1)} (a^{(l)})^T, \\ \nabla_{b^{(l)}} J(W,b;x,y) &= \delta^{(l+1)}. \end{align}$
5、计算整体的偏导

\partial \partial W ( l ) i j J (W, b) \partial \partial b ( l ) i J (W, b) = ⎡ ⎣ 1 m \sum i = 1 m \partial \partial W ( l ) i j J (W, b; x (i), y (i)) ⎤ ⎦ + λ W (l) i j = 1 m \sum i = 1 m \partial \partial b ( l ) i J (W, b; x (i), y (i)) (11) (12)

$\begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) &= \left[ \frac{1}{m} \sum_{i=1}^m \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \right] + \lambda W_{ij}^{(l)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) &= \frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \end{align}$
6、梯度下降更新

W,b W , b $W,b$

W (l) i j b (l) i = W (l) i j - α \partial \partial W ( l ) i j J (W, b) = b (l) i - α \partial \partial b ( l ) i J (W, b) (13) (14)

$\begin{align} W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \\ b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) \end{align}$

梯度下降更新 $W,b$

$\partial \partial W ( l ) i j J (W, b) \partial \partial b ( l ) i J (W, b) = ⎡ ⎣ 1 m \sum i = 1 m \partial \partial W ( l ) i j J (W, b; x (i), y (i)) ⎤ ⎦ + λ W (l) i j = 1 m \sum i = 1 m \partial \partial b ( l ) i J (W, b; x (i), y (i)) (15) (16)$ $\begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) &= \left[ \frac{1}{m} \sum_{i=1}^m \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \right] + \lambda W_{ij}^{(l)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) &= \frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \end{align}$
$\partial J ( W , b ; x , y ) \partial W l j i = = = \partial J ( W , b ; x , y ) \partial z ( l + 1 ) j \cdot \partial z ( l + 1 ) j \partial W l j i \partial J ( W , b ; x , y ) \partial z ( l + 1 ) j \cdot \partial \sum n i = 1 W ( l ) j i a l i + b l i \partial W l j i \partial J ( W , b ; x , y ) \partial z ( l + 1 ) j \cdot a l i (17) (18) (19)$ $\begin{eqnarray} \frac{\partial J(W,b;x,y)}{\partial W_{ji}^{l}}&=&\frac{ \partial J(W,b;x,y) }{\partial z_{j}^{(l+1)}}\cdot \frac{\partial z_{j}^{(l+1)}}{\partial W_{ji}^{l}} \\ &=& \frac{ \partial J(W,b;x,y) }{\partial z_{j}^{(l+1)}}\cdot \frac{\partial \sum_{i=1}^{n}W_{ji}^{(l)} a_{i}^{l} + b_{i}^{l}}{\partial W_{ji}^{l}} \\ &=& \frac{ \partial J(W,b;x,y) }{\partial z_{j}^{(l+1)}}\cdot a_{i}^{l} \end{eqnarray}$
$δ (n l) j = = = = = \partial J ( W , b ; x , y ) \partial z ( n l ) j \partial 1 2 | | y - h W , b | | 2 \partial z ( n l ) j \partial 1 2 | | y - a ( n l ) j | | 2 \partial z ( n l ) j - (y - a (n l) j) \partial a ( n l ) j \partial z ( n l ) j - (y - a (n l) j) f' (z n l i) (20) (21) (22) (23) (24)$ $\begin{eqnarray} \delta_{j}^{(n_l)}&= & \frac{ \partial J(W,b;x,y) }{\partial z_{j}^{(n_l)}} \\&=&\frac{\partial \frac{1}{2}||y-h_{W,b}||^2}{\partial z_{j}^{(n_l)}} \\ &=& \frac{\partial \frac{1}{2}||y-a_{j}^{(n_l)}||^2}{\partial z_{j}^{(n_l)}} \\ &=& -(y-a_{j}^{(n_l)})\frac{\partial a_{j}^{(n_l)}}{\partial z_{j}^{(n_l)}} \\ &=& -(y-a_{j}^{(n_l)})f^{'}(z_{i}^{n_l}) \end{eqnarray}$
$\partial J ( W , b ; x , y ) \partial W l j i = = - (y - a (n l) j) f' (z n l i) \cdot a l i δ (n l) j \cdot a l i (25) (26)$ $\begin{eqnarray} \frac{\partial J(W,b;x,y)}{\partial W_{ji}^{l}}&=& -(y-a_{j}^{(n_l)})f^{'}(z_{i}^{n_l})\cdot a_{i}^{l} \\ &=& \delta_{j}^{(n_l)}\cdot a_{i}^{l} \end{eqnarray}$
对于隐含层，其误差项通过其后面一层传播而来，对于第L层，相当于L+1 层有 $s_{l+1}项误差求和而来$
$δ l i = = = = = = \partial J ( W , b ; x , y ) \partial z l i \sum j = 1 S l + 1 \partial J ( W , b ; x , y ) \partial z l + 1 j \partial z l + 1 j \partial z l j \sum j = 1 S l + 1 \partial J ( W , b ; x , y ) \partial z l + 1 j \partial ( \sum n i = 1 W l j i a l i + b l i ) \partial z l j \sum j = 1 S l + 1 \partial J ( W , b ; x , y ) \partial z l + 1 j \partial ( \sum n i = 1 W l j i f ( z l i ) + b l i ) \partial z l j \sum j = 1 S l + 1 \partial J ( W , b ; x , y ) \partial z l + 1 j W l j i f' (z l i) \sum j = 1 S l + 1 δ (l + 1) j W l j i f' (z l i) (27) (28) (29) (30) (31) (32)$ $\begin{eqnarray} \delta_{i}^{l}&=& \frac{ \partial J(W,b;x,y)}{\partial z_{i}^{l}} \\ &=& \sum_{j=1}^{S_{l+1}}\frac{\partial J(W,b;x,y)}{\partial z_{j}^{l+1}}\frac{\partial z_{j}^{l+1}}{\partial z_{j}^{l}} \\ &=& \sum_{j=1}^{S_{l+1}}\frac{\partial J(W,b;x,y)}{\partial z_{j}^{l+1}}\frac{\partial (\sum_{i=1}^{n}W_{ji}^{l}a_{i}^{l}+b_{i}^{l})}{\partial z_{j}^{l}} \\&=& \sum_{j=1}^{S_{l+1}}\frac{\partial J(W,b;x,y)}{\partial z_{j}^{l+1}}\frac{\partial (\sum_{i=1}^{n}W_{ji}^{l}f(z_{i}^{l})+b_{i}^{l})}{\partial z_{j}^{l}} \\ &=& \sum_{j=1}^{S_{l+1}}\frac{\partial J(W,b;x,y)}{\partial z_{j}^{l+1}}W_{ji}^{l}f^{'}(z_{i}^{l}) \\ &=& \sum_{j=1}^{S_{l+1}} \delta_{j}^{(l+1)}W_{ji}^{l}f^{'}(z_{i}^{l}) \end{eqnarray}$

4、softmax函数及其求导

输出层激励函数为softmax：

a L j = e z L j \sum k e z L k

$a_j^L= \frac{e^{z_j^L}}{\sum_ke^{z_k^L}}$
交叉熵代价函数为：

C = - \sum k y k l o g a k

$C= -\sum_{k}y_k\ log\ a_k$

关于W和b的偏导为：关于 W 和 b 的偏导为： $关于W和b的偏导为：$

\partial C \partial w j k = a L - 1 k (a L j - y j)

$\frac{\partial C}{\partial w_{jk}}=a_k^{L-1}(a_j^L-y_j)$

\partial C \partial b j = a L j - y j

$\frac{\partial C}{\partial b_{j}}=a_j^L-y_j$

公式推导过程
softmax函数公式：
$a L j = e z L j \sum k e z L k$ $a_j^L= \frac{e^{z_j^L}}{\sum_ke^{z_k^L}}$
其中
$i f j \partial a j \partial z j = = = = = i \partial \partial z i (e z j \sum k e z k) ( e z j ) ' \sum k e z k - e z j e z j ( \sum k e z k ) 2 e z j \sum k e z k - e z j \sum k e z k \cdot e z j \sum k e z k a j (1 - a j) (33) (34) (35) (36) (37)$ $\begin{eqnarray} if \ j &=& i \\ \frac{\partial a_j}{\partial z_j}&=&\frac{\partial}{\partial z_i}(\frac{e^{z_j}}{\sum_k e^{z_k}}) \\ &=&\frac{(e^{z_j})^{'}\sum_k e^{z_k}-e^{z_j} \ e^{z_j}}{(\sum_k e^{z_k})^2} \\&=& \frac{e^{z_j}}{\sum_k e^{z_k}}- \frac{e^{z_j}}{\sum_k e^{z_k}} \cdot \frac{e^{z_j}}{\sum_k e^{z_k}} \\ &=& a_j(1-a_j) \end{eqnarray}$
$i f j \partial a j \partial z j \neq i = = = = \partial \partial z i (e z j \sum k e z k) 0 \sum k e z k - e z j e z i ( \sum k e z k ) 2 - e z j \sum k e z k \cdot e z i \sum k e z k - a j a i (38) (39) (40) (41) (42)$ $\begin{eqnarray} if \ j &\neq i \\ \frac{\partial a_j}{\partial z_j}&=&\frac{\partial}{\partial z_i}(\frac{e^{z_j}}{\sum_k e^{z_k}}) \\ &=& \frac{0\sum_k e^{z_k}-e^{z_j} \ e^{z_i}}{(\sum_k e^{z_k})^2} \\&=& - \frac{e^{z_j}}{\sum_k e^{z_k}} \cdot \frac{e^{z_i}}{\sum_k e^{z_k}} \\ &=& -a_ja_i \end{eqnarray}$
交叉熵代价函数为：
$C = - \sum k y k l o g a k$ $C= -\sum_{k}y_k\ log\ a_k$
$\partial C \partial b j = = = = = = = \partial C \partial z j \cdot \partial z j \partial b j \partial C \partial z j \cdot \partial ( w j k a k + b j ) \partial b j \partial \partial z j (- \sum k y k l o g a k) - \sum k y k 1 a k \cdot \partial a k \partial z j - y j 1 a j a j (1 - a j) - \sum k \neq j y k 1 a k (- a j a k) - y j + a j \sum k y k a j - y j (43) (44) (45) (46) (47) (48) (49)$ $\begin{eqnarray} \frac{\partial C}{\partial b_j} &=& \frac{\partial C}{\partial z_j}\cdot \frac{\partial z_j}{\partial b_j} \\ &=& \frac{\partial C}{\partial z_j}\cdot \frac{\partial (w_{jk}a_k + b_j)}{\partial b_j} \\ &=& \frac{\partial}{\partial z_j}\left(-\sum_{k}y_k\ log\ a_k\right) \\ &=& -\sum_{k}y_k \frac{1}{a_k} \cdot \frac{\partial a_k}{\partial z_j} \\ &=&-y_j\frac{1}{a_j}a_j(1-a_j) -\sum_{k \neq j}y_k \frac{1}{a_k} \left(-a_ja_k\right) \\ &=& -y_j + a_j\sum_{k}y_k \\ &=& a_j -y_j \end{eqnarray}$
$\partial C \partial w j k = a L - 1 k (a L j - y j)$ $\frac{\partial C}{\partial w_{jk}}=a_k^{L-1}(a_j^L-y_j)$