BP神经网络数学推导

最新推荐文章于 2021-09-17 11:40:37 发布

陌二叔

最新推荐文章于 2021-09-17 11:40:37 发布

阅读量961

点赞数 4

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_38565839/article/details/104731506

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一. 前情提要

神经网络一种求解W权值的算法，分为正向传播(FP)求损失，反向传播(BP)回传误差，根据误差值求解权值W梯度更新其权重，反复迭代，直到找到W最优解(不考虑局部最优)。

本次使用单层神经网络进行推导，隐藏层与输出层的激活函数使用Sigmoid，损失使用均方差MSE，使用梯度下降优化损失函数并求解权值W。

单层神经网络结构如下：其中H(x)为激活函数Sigmoid,S(x,w)为求和函数，x1,x2为样本输入，b为截距(暂不参与计算，权值计算与w一样)，w1~w12为权值。HidNeuro1,HidNeuro2,HidNeuro3,分别为隐层的三个神经元，OutNeuro1,OutNeuro2为输出层神经元。Neurout1,Neurout2,Neurout3为隐层输出，Out1,Out2为预测值。Rout1,Rout2为真实值。

二.FP正向传播

在进行第一次迭代时，算法会随机初始化一组w权值，w服从正态分布。

对于隐层神经元HidNeuro1,HidNeuro2,HidNeuro3:

$S_{neu1}$ $=$ $x_{1}$ $w_{1}+x_{2}w_{4}$

$S_{neu2} = x_{1}w_{2} + x_{2}w_{5}$

$S_{neu3} = x_{1}w_{3} + x_{2}w_{6}$

通过激活函数Sigmoid非线性转换后：

Neurout1 = H( $S_{neu1}$ ) = $\frac{1}{1 + e^{-S_{neu1}}}$

Neurout2 = H( $S_{neu2}$ ) = $\frac{1}{1 + e^{-S_{neu2}}}$

Neurout3 = H( $S_{neu3}$ ) = $\frac{1}{1 + e^{-S_{neu3}}}$

对于输出层神经元OutNeuro1，OutNeuro2

$S_{outNeu1} = Neurout1*w_{7} + Neurout2*w_{9} + Neurout3*w_{11}$

$S_{outNeu2} = Neurout1*w_{8} + Neurout2*w_{10} + Neurout3*w_{12}$

通过Sigmoid转换后:

$Out_{1} = H(S_{outNeu1}) = \frac{1}{1 + e^{-S_{outNeu1}}}$

$Out_{2} = H(S_{outNeu2}) = \frac{1}{1 + e^{-S_{outNeu2}}}$

则输出层两个神经元误差分别为：

$E_{outNeu1} = \frac{1}{2}( Rout_{1} - Out_{1})^{2}$

$E_{outNeu2} = \frac{1}{2}(Rout_{2} - Out_{2})^{2}$

总损失为：

$E_{total} = E_{outNeu1} + E_{outNeu2}$

三.BP反向传播

现在使用梯度下降优化 $E_{total}$ ,使得损失在足够小的情况下，更新w权值。因此会对w求偏导。假定梯度下降学习率为 $\eta$ 。

以 $w_{7}$ 为例，来推导他的更新过程。

要求解的目标为： $\frac{\partial E_{total}}{\partial w_{7}}$

从分式看出， $E_{total}$ 与 $w_{7}$ 无直接关系，但是 $E_{total}$ 与 $E_{outNeu1}$ 有关，而 $E_{outNeu1}$ 与 $Out_{1}$ 有关，在 $Out_{1}$ 与 $S_{outNeu1}$ 有关，最后 $S_{outNeu1}$ 与 $w_{7}$ 有关。根据链式求导法则，能推出：

$\frac{\partial E_{total}}{\partial w_{7}} = \frac{\partial E_{total}}{\partial E_{outNeu1}}\cdot \frac{\partial E_{outNeu1}}{\partial Out_{1}}\cdot \frac{\partial Out_{1}}{\partial S_{outNeu1}}\cdot \frac{\partial S_{outNeu1}}{\partial w_{7}}$

化简后得出：

$\frac{\partial E_{total}}{\partial w_{7}} = (Out_{1}-Rout_{1})Out_{1}(1-Out_1)Neurout_{1}$

算出梯度后，则可更新 $w_{7}$ ：

$w_{7}^{+} = w_{7} - \eta \frac{\partial E_{total}}{\partial w_{7}}$

同理可得出隐层到输出层的其他权值 $w_{8},w_{9},w_{10},w_{11},w_{12}$ 。

对于输入层到隐层的权值 $w_{1},w_{2},w_{3},w_{4},w_{5},w_{6}$ 该怎么求偏导呢？根据图上观察， $w_{1}$ 与 $S_{neu1}$ 有关， $S_{neu1}$ 与Neurout1有关，然后Neurout1与 $S_{outNeu1},S_{outNeu2}$ 有关，最后 $S_{outNeu1},S_{outNeu2}$ 与 $Out_{1},Out_{2}$ 分别相关。同理根据链式求导法则，得出：

$\frac{\partial E_{total}}{\partial w_{1}} = (\frac{\partial E_{outNeu1}}{\partial Out_{1}}\cdot \frac{\partial Out_{1}}{\partial S_{outNeu1}}\cdot \frac{\partial S_{outNeu1}}{\partial Neurout_{1}} + \frac{\partial E_{outNeu2}}{\partial Out_{2}}\cdot \frac{\partial Out_{2}}{\partial S_{outNeu2}}\cdot \frac{\partial S_{outNeu2}}{\partial Neurout_{1}})\cdot \frac{\partial Neurout_{1}}{\partial S_{neu1}}\cdot \frac{\partial S_{neu1}}{\partial w_{1}}$

化简后得出：

$\frac{\partial E_{total}}{\partial w_{1}} = [(out_{1}-Rout_{1})Out_{1}(1-Out_{1})w_{7} + (out_{2}-Rout_{2})Out_{2}(1-Out_{2})w_{8}]Neurout_{1}(1-Neurout_{1})x_{1}$

即可更新 $w_{1}$ :

$w_{1}^{+} = w_{1} - \eta \frac{\partial E_{total}}{\partial w_{1}}$

陌二叔

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
BP神经网络数学推导

一. 前情提要神经网络一种求解W权值的算法，分为正向传播(FP)求损失，反向传播(BF)回传误差，根据误差值求解权值W梯度更新其权重，反复迭代，直到找到W最优解(不考虑局部最优)。本次使用单层神经网络进行推导，隐藏层与输出层的激活函数使用Sigmod，损失使用均方差MSE，使用梯度下降优化损失函数并求解权值W。单层神经网络结构如下：其中H(x)为激活函数Sigmod,S(x)为求和函数...
复制链接

扫一扫