BP算法原理解析

最新推荐文章于 2022-09-07 13:19:54 发布

haxiongha

最新推荐文章于 2022-09-07 13:19:54 发布

阅读量5.4k

点赞数 1

分类专栏： machine learning

本文链接：https://blog.csdn.net/haxiongha/article/details/80997980

版权

machine learning 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

注意：前方警告来袭：能认认真真看完这篇博客，读懂每一个公式，看懂每一个推导过程，那么就一定会对BP原理有一个根本性的认识，只有这样，作为一名程序猿，才能一个人在黑屋子里敲出对应功能的代码！！！

一、单层单连接

考虑以下两个单连接神经元：
两层单连接神经元
根据上图可得如下公式推导：
$n_{1}=w_{1}a_{0}\quad \quad \quad \quad\quad n_{2}=w_{2}a_{1}$
$a_{1}=f_{1}(n_{1})\quad\quad\quad\quad\quad a=a_{2}=f_{2}(n_{2})$
$E=E[(t-a)^2]=E(n_{1},n_{2})=E(w_{1},w_{2})$
此处用 $E$ 表示代价函数，物理意义为均方误差值， $t$ 表示训练样本所对应的目标值， $a$ 为最终的输出， $E$ 中 $t$ 为已知值，故其为 $a$ 的函数，又有前可知 $a$ 为 $n_{2}$ 的函数， $n_{2}$ 为 $a_{1}$ 的函数， $a_{1}$ 为 $n_{1}$ 的函数，如果将 $w_{2}$ 看着常数，则 $a$ 为 $n_{1}$ 、 $n_{2}$ 的函数，所以 $E$ 同时也可以表示为 $n_{1}$ 、 $n_{2}$ 的函数，同理也可以表示为 $w_{1}$ 、 $w_{2}$ 的函数。机器学习的目的就是通过调整参数 $w$ 使 $E$ 最小，为使后面求导方便，同样可以将 $E$ 表示成如下：

E \approx (t - a)^{2}

$E\approx (t-a)^2$
已知

E E $E$ 为

w_{1}

$w_{1}$ 、

w2 w 2 $w_{2}$ 的函数，为使

E E $E$ 取值最小，可通过梯度下降法对

w_{1}

$w_{1}$ 、

w2 w 2 $w_{2}$ 更新，更新过程如下：

w 1 (k + 1) = w 1 (k) - α \cdot \partial E \partial w 1 w 2 (k + 1) = w 2 (k) - α \cdot \partial E \partial w 2

$w_{1}(k+1)=w_{1}(k)-\alpha\cdot\frac{\partial E}{\partial w_{1}}\\ w_{2}(k+1)=w_{2}(k)-\alpha\cdot\frac{\partial E}{\partial w_{2}}$
其中

α α $\alpha$ 为梯度更新步长，也称为学习率，可由人为设定。
已知

E = E [(t - a) 2] = E (n 1, n 2) = E (w 1, w 2)

$E=E[(t-a)^2]=E(n_{1},n_{2})=E(w_{1},w_{2})$

n 1 = w 1 a 0 n 2 = w 2 a 1

$n_{1}=w_{1}a_{0}\quad \quad \quad \quad\quad\quad \quad\quad n_{2}=w_{2}a_{1}$
根据求导链式法则可得:

\partial E \partial w 1 = \partial E \partial n 1 \cdot \partial n 1 \partial w 1

$\frac{\partial E}{\partial w_{1}}=\frac{\partial E}{\partial n_{1}}\cdot\frac{\partial n_{1}}{\partial w_{1}}$

\partial E \partial w 2 = \partial E \partial n 2 \cdot \partial n 2 \partial w 2

$\frac{\partial E}{\partial w_{2}}=\frac{\partial E}{\partial n_{2}}\cdot\frac{\partial n_{2}}{\partial w_{2}}$
其中

\partial n 1 \partial w 1 = \partial ( w 1 a 0 ) \partial w 1 = a 0

$\frac{\partial n_{1}}{\partial w_{1}}=\frac{\partial(w_{1}a_{0})}{\partial w_{1}}=a_{0}$

\partial n 2 \partial w 2 = \partial ( w 2 a 1 ) \partial w 2 = a 1

$\frac{\partial n_{2}}{\partial w_{2}}=\frac{\partial(w_{2}a_{1})}{\partial w_{2}}=a_{1}$
令

\partial E \partial n 1 = s 1

$\frac{\partial E}{\partial n_{1}}=s_{1}$

\partial E \partial n 2 = s 2

$\frac{\partial E}{\partial n_{2}}=s_{2}$
为敏感系数，后面会通过公式计算该系数，将以上公式合并可得如下公式：

\partial E \partial w 1 = \partial E \partial n 1 \cdot \partial n 1 \partial w 1 = s 1 \cdot a 0

$\frac{\partial E}{\partial w_{1}}=\frac{\partial E}{\partial n_{1}}\cdot\frac{\partial n_{1}}{\partial w_{1}}=s_{1}\cdot a_{0}$

\partial E \partial w 2 = \partial E \partial n 2 \cdot \partial n 2 \partial w 2 = s 2 \cdot a 1

$\frac{\partial E}{\partial w_{2}}=\frac{\partial E}{\partial n_{2}}\cdot\frac{\partial n_{2}}{\partial w_{2}}=s_{2}\cdot a_{1}$
带入更新公式可得：

w 1 (k + 1) = w 1 (k) - α \cdot s 1 \cdot a 0 w 2 (k + 1) = w 2 (k) - α \cdot s 2 \cdot a 1

$w_{1}(k+1)=w_{1}(k)-\alpha\cdot s_{1}\cdot a_{0}\\ w_{2}(k+1)=w_{2}(k)-\alpha\cdot s_{2}\cdot a_{1}$
该更新公式中等式右边只有敏感系数

s1 s 1 $s_{1}$ 和

s2 s 2 $s_{2}$ 未知，先计算

s1 s 1 $s_{1}$ 、

s2 s 2 $s_{2}$ 的表达式，已知

s1 s 1 $s_{1}$ 、

s2 s 2 $s_{2}$ 的定义式，可通过求导链式法则求出

s1 s 1 $s_{1}$ 和

s2 s 2 $s_{2}$ 之间的关系。

s 1 = \partial E \partial n 1 = \partial E \partial n 2 \cdot \partial n 2 \partial n 1 = s 2 \cdot \partial n 2 \partial n 1

$s_{1}=\frac{\partial E}{\partial n_{1}}=\frac{\partial E}{\partial n_{2}}\cdot \frac{\partial n_{2}}{\partial n_{1}}=s_{2}\cdot \frac{\partial n_{2}}{\partial n_{1}}$
其中

\partial n 2 \partial n 1 = \partial ( w 2 a 1 ) \partial n 1 = w 2 \cdot \partial a 1 \partial n 1 = w 2 \cdot \partial f 1 ( n 1 ) \partial n 1 = w 2 \cdot f ˙ 1 (n 1)

$\frac{\partial n_{2}}{\partial n_{1}}=\frac{\partial (w_{2}a_{1})}{\partial n_{1}}=w_{2}\cdot \frac{\partial a_{1}}{\partial n_{1}}=w_{2}\cdot \frac{\partial f_{1}(n_{1})}{\partial n_{1}}=w_{2}\cdot \dot{f}_{1}(n_{1})$
所以

s1 s 1 $s_{1}$ 与

s2 s 2 $s_{2}$ 之间的关系为

s 1 = s 2 \cdot w 2 \cdot f ˙ 1 (n 1)

$s_{1}=s_{2}\cdot w_{2}\cdot \dot{f}_{1}(n_{1})$
现在

s1 s 1 $s_{1}$ 可以通过

s2 s 2 $s_{2}$ 表示了，也就是说到这一步只有

s2 s 2 $s_{2}$ 是未知数，下面计算

s2 s 2 $s_{2}$ 的表达式：由前面可知均方误差

E E $E$ 的近似表达式为：

E \approx (t - a)^{2}

$E\approx (t-a)^2$
而

\partial E \partial n 2 = s 2

$\frac{\partial E}{\partial n_{2}}=s_{2}$
将两者合并可得：

s 2 = \partial E \partial n 2 = \partial ( t - a ) 2 \partial n 2 = - 2 (t - a) \cdot \partial a \partial n 2 = - 2 (t - a) \cdot \partial f 2 ( n 2 ) \partial n 2 = - 2 (t - a) \cdot f ˙ 2 (n 2)

$s_{2}=\frac{\partial E}{\partial n_{2}}=\frac{\partial (t-a)^2}{\partial n_{2}}=-2(t-a)\cdot \frac{\partial a}{\partial n_{2}}\\ =-2(t-a)\cdot \frac{\partial f_{2}(n_{2})}{\partial n_{2}}=-2(t-a)\cdot \dot{f}_{2}(n_{2})$
注意到此表达式中等式的右边含有

(t−a) ( t − a ) $(t-a)$ 为训练模型的偏差。
至此

s1 s 1 $s_{1}$ 、

s2 s 2 $s_{2}$ 的计算表达式均已知。
这里写图片描述

现在重新理一下整个更新过程：
这里写图片描述

总结：BP更新过程可分为三步：

第一步：数据前向传播

这里写图片描述

第二步：误差后向传播

这里写图片描述

第三步：权重更新

这里写图片描述

二、多层多连接

要读懂这一节，必须先要对第一节有足够的理解。
因本人没有艺术细胞，不会画图，前面那个图都是复制来的，又多层网络图不好画，网上又搜索不到对应的图，所以就不贴图了，各位读者还请自行脑补，就是在第一个图上面进行扩展。下面直接列写公式：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ a ⃗ 0 = p ⃗ a ⃗ m + 1 = f ⃗ m + 1 (W m + 1 a ⃗ m + b ⃗ m + 1) m = 0, 1, 2, . . ., M - 1 a ⃗ = a ⃗ M

$\begin{cases}\vec{a}^{0}=\vec{p}\\ \vec{a}^{m+1}=\vec{f}^{m+1}(W^{m+1}\vec{a}^{m}+\vec{b}^{m+1})\quad \quad \quad m=0,1,2,...,M-1\\ \vec{a}=\vec{a}^{M} \end{cases}$
代价函数(均方误差)：

F^(x ⃗) = (t ⃗ (k) - a ⃗ (k)) T (t ⃗ (k) - a ⃗ (k))

$\hat{F}(\vec{x})=(\vec{t}(k)-\vec{a}(k))^{T}(\vec{t}(k)-\vec{a}(k))$
权重更新公式：
这里写图片描述

这里需要注意下标

i,j i , j $i,j$ 中

j j $j$ 表示前一层神经元节点下标,

i

$i$ 表示后一层神经元节点下标。
根据偏导链式法则同理可推得如下公式：
这里写图片描述

其中

表示第

m m $m$ 层第

i

$i$ 个节点的输入。该式对

w和b w 和 b $w和b$ 求偏导分别为：

\partial n m i \partial w m i , j = a m - 1 j

$\frac{\partial n^{m}_{i}}{\partial w^{m}_{i,j}}=a^{m-1}_{j}$

\partial n m i \partial b m i = 1

$\frac{\partial n^{m}_{i}}{\partial b^{m}_{i}}=1$
同理定义敏感因子：

s m i = \partial F ^ \partial n m i

$s^m_{i}=\frac{\partial \hat{F}}{\partial n^{m}_{i}}$
结合前面两部分公式可得权重梯度：
这里写图片描述

将其代入权重更新公式有：
这里写图片描述

该表达式只是针对求解某一个权重和偏置。
下面以向量和矩阵的方式表示一层中权重和偏置的更新公式：
第

m m $m$ 层权重用矩阵表示如下：

W^{m} = [\begin{matrix} w_{1, 1}^{m} & w_{1, 2}^{m} & \dots & w_{1, S^{m - 1}}^{m} \\ w_{2, 1}^{m} & w_{2, 2}^{m} & \dots & w_{2, S^{m - 1}}^{m} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ w_{S^{m}, 1}^{m} & w_{S^{m}, 2}^{m} & \dots & w_{S^{m}, S^{m - 1}}^{m} \end{matrix}]

$W^{m}=\left [\begin{matrix} w^{m}_{1,1}&w^{m}_{1,2}&\cdots&w^{m}_{1,S^{m-1}}\\ w^{m}_{2,1}&w^{m}_{2,2}&\cdots&w^{m}_{2,S^{m-1}}\\ \vdots &\vdots &\ddots &\vdots \\ w^{m}_{S^{m},1}&w^{m}_{S^{m},2}&\cdots&w^{m}_{S^{m},S^{m-1}} \end{matrix}\right]$
第

m m $m$ 层敏感因子向量如下：

{\vec{s}}^{m} = \frac{\partial \hat{F}}{\partial {\vec{n}}^{m}} = [\begin{matrix} \frac{\partial \hat{F}}{\partial n_{1}^{m}} \\ \frac{\partial \hat{F}}{\partial n_{2}^{m}} \\ ⋮ \\ \frac{\partial \hat{F}}{\partial n_{S^{m}}^{m}} \end{matrix}]

$\vec{s}^{m}=\frac{\partial \hat{F}}{\partial \vec{n}^{m}}= \left[\begin{matrix} \frac{\partial \hat{F}}{\partial n^{m}_{1}}\\ \frac{\partial \hat{F}}{\partial n^{m}_{2}}\\ \vdots\\ \frac{\partial \hat{F}}{\partial n^{m}_{S^{m}}} \end{matrix}\right]$
第

m−1 m − 1 $m-1$ 层输出向量如下：

a ⃗ m - 1 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ a m - 1 1 a m - 1 2 ⋮ a m - 1 S m - 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\vec{a}^{m-1}= \left[\begin{matrix} a^{m-1}_{1}\\a^{m-1}_{2}\\\vdots\\a^{m-1}_{S^{m-1}} \end{matrix}\right]$
第

m m $m$ 层偏置向量如下：

{\vec{b}}^{m - 1} = [\begin{matrix} b_{1}^{m - 1} \\ b_{2}^{m - 1} \\ ⋮ \\ b_{S^{m - 1}}^{m - 1} \end{matrix}]

$\vec{b}^{m-1}= \left[\begin{matrix} b^{m-1}_{1}\\b^{m-1}_{2}\\\vdots\\b^{m-1}_{S^{m-1}} \end{matrix}\right]$
由此上述权重和偏置更新公式可统一由一下公式表示：
这里写图片描述

现在我们需要推导如下关系式：
这里写图片描述

已知

s ⃗ m = \partial F ^ \partial n ⃗ m = [\partial n ⃗ m + 1 \partial n ⃗ m] T \partial F ^ \partial n ⃗ m + 1 = \partial n ⃗ m + 1 \partial n ⃗ m s ⃗ m + 1

$\vec{s}^{m}=\frac{\partial \hat{F}}{\partial \vec{n}^{m}}=\left[\frac{\partial \vec{n}^{m+1}}{\partial \vec{n}^{m}}\right]^{T}\frac{\partial \hat{F}}{\partial \vec{n}^{m+1}}=\frac{\partial \vec{n}^{m+1}}{\partial \vec{n}^{m}}\vec{s}^{m+1}$
注意，这里等式右边两个微分顺序不能乱，前一个为矩阵，后一个为向量，调换顺序后则无法进行数学运算。
这里写图片描述