BP(反向传播)

最新推荐文章于 2024-07-02 20:59:51 发布

qinglv1

最新推荐文章于 2024-07-02 20:59:51 发布

阅读量1.1k

点赞数 1

分类专栏： ML

ML 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

神经网络的反向传播算法，是基于SGD(梯度下降算法)的思想而来的，就是更新权重，一步步求解，所以也需要

损失函数的概念，利用误差求导的方法来改变权重，但是BP的效率在神经网络里面来看是比较高的。

以下内容转载自链接：https://blog.csdn.net/baozi__/article/details/78307479

计算过程

现在我们有这样一个神经网络：

输入层有两个神经元i1和i2，隐藏层有两个神经元h1和h2，偏差都为b1，输出层有两个神经元o1和o2，偏差都为b2，权重为w
神经元的输入经过激活函数转变为输出，即带权输入net经过激活函数转变为输出激活值out，如图所示：

现在一步一步进行计算

前向传播

输入层 -> 隐藏层

计算隐藏层神经元h1与h2的带权输入：
$n e t h 1 = ω 1 * i 1 + ω 2 * i 2 + b 1$
$n e t h 2 = ω 3 * i 1 + ω 4 * i 2 + b 1$
计算h1与h2的输出激活值（激活函数为sigmoid函数）：

sigmoid函数： S(x)=11+e−x

o u t h 1 = 1 1 + e - n e t h 1

o u t h 2 = 1 1 + e - n e t h 2

隐藏层 -> 输出层

计算输出层神经元o1与o2的带权输入：
$n e t o 1 = ω 5 * o u t h 1 + ω 6 * o u t h 2 + b 2$
$n e t o 2 = ω 7 * o u t h 1 + ω 8 * o u t h 2 + b 2$
计算o1与o2的输出激活值：
$o u t o 1 = 1 1 + e - n e t o 1$
$o u t o 2 = 1 1 + e - n e t o 2$

至此，我们就计算出了前向传播的输出，接下来进行反向传播

反向传播

计算误差（代价函数）

分别计算o1和o2的误差：

这里使用二次代价函数：E=12(target−output)2

E o 1 = 1 2 (t a r g e t o 1 - o u t p u t o 1) 2

E o 2 = 1 2 (t a r g e t o 2 - o u t p u t o 2) 2

2. 计算总误差：

总误差为：Etotal=∑12(target−output)2

E t o t a l = E o 1 + E o 2

权值更新

微分知识告诉我们，导数体现变化率，那么权值对于总误差的影响则体现在导数上
要更新权值，就要计算总误差对权值的偏导数，即权值能对总误差产生多少影响，这里用到了链式法则

隐藏层 -> 输出层的权值更新

以w5为例：
$\partial E t o t a l \partial o u t o 1 * \partial o u t o 1 \partial n e t o 1 * \partial n e t o 1 \partial ω 5 = \partial E t o t a l \partial ω 5$
下图可以更直观的感受反向传播误差：
分别计算等号左边的三个式子：
- ∂Etotal∂outo1：
  $E t o t a l = 1 2 (t a r g e t o 1 - o u t p u t o 1) 2 + 1 2 (t a r g e t o 2 - o u t p u t o 2) 2$
  $\partial E t o t a l \partial o u t o 1 = - (t a r g e t o 1 - o u t p u t o 1)$
- ∂outo1∂neto1(即对sigmoid函数求导):
  $o u t o 1 = 1 1 + e - n e t o 1$
  $\partial o u t o 1 \partial n e t o 1 = o u t o 1 (1 - o u t o 1)$
- ∂neto1∂ω5：
  $n e t o 1 = ω 5 * o u t h 1 + ω 6 * o u t h 2 + b 2$
  $\partial n e t o 1 \partial ω 5 = o u t h 1$
然后乘起来即可：
$\partial E t o t a l \partial ω 5 = - (t a r g e t o 1 - o u t p u t o 1) * o u t o 1 (1 - o u t o 1) * o u t h 1$
现在我们得到了整体误差E(total)对w5的偏导值，为了表达方便，在此我们定义：

δ为神经元的误差
（与上文提到的误差不同，上文着重最终结果的误差，此处更着重单个神经元的误差）
那么δo1即为神经元o1的误差，即：
$δ o 1 = \partial E t o t a l \partial o u t o 1 * \partial o u t o 1 \partial n e t o 1 = \partial E t o t a l \partial n e t o 1$
$δ o 1 = - (t a r g e t o 1 - o u t p u t o 1) * o u t o 1 (1 - o u t o 1)$
所以，整体误差E(total)对w5的偏导为：
$\partial E t o t a l \partial ω 5 = δ o 1 * o u t h 1$
最后，w5得到更新：
$ω 5 \to ω 5 - η * \partial E t o t a l \partial ω 5$

η是学习速率，也叫步长

输入层（隐藏层） -> 隐藏层的权值更新

以w1为例：
$\partial E t o t a l \partial o u t h 1 * \partial o u t h 1 \partial n e t h 1 * \partial n e t h 1 \partial ω 1 = \partial E t o t a l \partial ω 1$
计算方法与上面类似，但是有个地方需要变一下，在计算h1的误差时，out(h1)会接受来自o1和o2两个神经元的误差，所以在这两个都要计算
分别计算等号左边的三个式子：
- ∂Etotal∂outh1：
  $\partial E t o t a l \partial o u t h 1 = \partial E o 1 \partial o u t h 1 + \partial E o 2 \partial o u t h 1$
  先计算∂Eo1∂outh1：
  $\partial E o 1 \partial o u t h 1 = \partial E o 1 \partial n e t o 1 * \partial n e t o 1 \partial o u t h 1$
  其中：
  $\partial E o 1 \partial n e t o 1 = \partial E o 1 \partial o u t o 1 * \partial o u t o 1 \partial n e t o 1$
  $n e t o 1 = ω 5 * o u t h 1 + ω 6 * o u t h 2 + b 2$
  $\partial n e t o 1 \partial o u t h 1 = ω 5$
  得到：
  $\partial E o 1 \partial o u t h 1 = \partial E o 1 \partial o u t o 1 * \partial o u t o 1 \partial n e t o 1 * ω 5$
  代入上边计算出的结果可得：
  $\partial E o 1 \partial o u t h 1 = - (t a r g e t o 1 - o u t p u t o 1) * o u t o 1 (1 - o u t o 1) * ω 5$
  观察1，2两个式子，我们可以发现，等号右边的左边两项，其实就是δo1，所以上式可以化简为：
  $\partial E o 1 \partial o u t h 1 = δ o 1 * ω 5$
  同理可得另一项：
  $\partial E o 2 \partial o u t h 1 = δ o 2 * ω 7$
  然后加起来便得到第一项：
  $\partial E t o t a l \partial o u t h 1 = δ o 1 * ω 5 + δ o 2 * ω 7$
- ∂outh1∂neth1(即对sigmoid函数求导):
  $o u t h 1 = 1 1 + e - n e t h 1$
  $\partial o u t h 1 \partial n e t h 1 = o u t h 1 (1 - o u t h 1)$
- ∂neth1∂ω1：
  $n e t h 1 = ω 1 * i 1 + ω 2 * i 2 + b 1$
  $\partial n e t h 1 \partial ω 1 = i 1$
然后乘起来即可：
$\partial E t o t a l \partial ω 1 = (δ o 1 * ω 5 + δ o 2 * ω 7) * o u t h 1 (1 - o u t h 1) * i 1$
那么δh1即为神经元h1的误差，即：
$δ h 1 = \partial E t o t a l \partial o u t h 1 * \partial o u t h 1 \partial n e t h 1 = \partial E t o t a l \partial n e t h 1$
$δ h 1 = (δ o 1 * ω 5 + δ o 2 * ω 7) * o u t h 1 (1 - o u t h 1)$
所以，整体误差E(total)对w1的偏导为：
$\partial E t o t a l \partial ω 1 = δ h 1 * i 1$
最后，w5得到更新：
$ω 1 \to ω 1 - η * \partial E t o t a l \partial ω 1$