反向传播算法推导

李坦（BNU远程教育学）

已于 2022-03-10 19:52:46 修改

阅读量333

点赞数

分类专栏：阅读笔记机器学习文章标签：深度学习神经网络自然语言处理机器学习

于 2020-09-21 20:36:26 首次发布

本文链接：https://blog.csdn.net/qq_32863549/article/details/108718380

版权

机器学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

阅读笔记

6 篇文章 0 订阅

订阅专栏

13.3.1 反向传播算法推导

如下图所示为一个神经网络的结构图，由于本文主要探讨激活函数在反向传播过程中的作用，因此不会带入数值进行计算，而是以两个权重的更新为案例进行公式的推导，分别为如何通过反向传播算法更新 $w^2_{11}$ 和 $w^1_{11}$ 的值。
在这里插入图片描述

13.3.1.1 前向传播

首先，需要知道的是，整个网络中 $i_1$ , $i_2$ 以及所有的权重值均为定值，权重值为网络初始化时按照一定概率分布随机赋值的。则 $h_1$ 内部结构如下：
在这里插入图片描述

其中， $net_{h_1}$ 表示加权后的值， $out_{h_1}$ 表示加权计算后经过激活函数得到的值， $target_{o_1}$ 表示标签的值。具体计算方法如下：
$net_{h_1}=i_1*w^1_{11}+i_2*w^1_{21}+b_1$
$out_{h_1}=f(net_{h_1})$
同理得到：
$net_{o_1}=out_{h_1}*w^2_{11}+out_{h_2}*w^2_{21}+b_2$
$out_{o_1}=f(net_{o_1})$
因此，我们可以知道对于输出层 $o_1$ 的误差可以按照如下公式计算出来：
$E_{total}=E_{o_1}+E_{o_2}$
$E_{o_1}=\frac{1}{2}(target_{o_1}-out_{o_1})^2$

13.3.1.2 反向传播

1. $w^2_{11}$ 更新
首先我们计算如何更新 $w^2_{11}$ 权重。
我们使用 $\frac{\partial E_{total}}{\partial w^2_{11}}$ 求解，参数 $w^2_{11}$ 对最终计算误差的影响程度。则:
$\frac{\partial E_{total}}{\partial w^2_{11}}=\frac{\partial E_{o_1}}{\partial w^2_{11}}+\frac{\partial E_{o_2}}{\partial w^2_{11}}=\frac{\partial E_{o_1}}{\partial w^2_{11}}$
则，根据链式法则，我们可以将 $\frac{\partial E_{o_1}}{\partial w^2_{11}}$ 推导成： $\frac{\partial E_{o_1}}{\partial w^2_{11}}=\frac{\partial E_{o_1}}{\partial out_{o_1}}*\frac{\partial out_{o_1}}{\partial net{o_1}}*\frac{\partial net{o_1}}{\partial w_{11}^2}$
如下图所示，展示了这个推导过程，其中橙色的箭头为推导路径。
在这里插入图片描述

接下来具体计算每个导数的值：
由前向传播过程中误差值可以知道：
$E_{o_1}=\frac{1}{2}(target_{o_1}-out_{o_1})^2$
则：
$\frac{\partial E_{o_1}}{\partial out_{o_1}}=2*\frac{1}{2}*(target_{o_1}-out_{o_1})*(0-1)=out_{o_1}-target_{o_1}$
由
$out_{h_1}=f(net_{h_1})$
则可以发现：
$\frac{\partial out_{o_1}}{\partial net{o_1}}$ 的值与其激活函数形式有关，我们这里暂且不做讨论，保留通用形式。
由
$net_{o_1}=out_{h_1}*w^2_{11}+out_{h_2}*w^2_{21}+b_2$
可以推导：
$\frac{\partial net{o_1}}{\partial w_{11}^2}=out_{h_1}+0+0=out_{h_1}$
因此， $w^2_{11}$ 对总误差的影响如下：
$\frac{\partial E_{total}}{\partial w^2_{11}}=\frac{\partial E_{o_1}}{\partial w^2_{11}}=(out_{o_1}-target_{o_1})*\frac{\partial out_{o_1}}{\partial net{o_1}}*out_{h_1}$
上述公式中， $out_{o_1},target_{o_1},out_{h_1}$ 均为定值，因此 $\frac{\partial out_{o_1}}{\partial net{o_1}}$ 成为影响该结果为唯一变量，由于该结果与激活函数有关，不同激活函数求导结果不同。
令 $η$ 为学习率，则更新方法为：
$\tilde{w^2_{11}}=w^2_{11}-η*\frac{\partial E_{total}}{\partial w^2_{11}}$
2. $w^1_{11}$ 更新
如下图所示， $w^1_{11}$ 权重，将影响到 $o_1$ 和 $o_2$ 。因此通过 $\frac{\partial E_{total}}{\partial w^1_{11}}$ 计算出 $w^1_{11}$ 权重对总损失的影响。
在这里插入图片描述

由于：
$E_{total}=E_{o_1}+E_{o_2}$
则，根据导数加法原则有：
$\frac{\partial E_{total}}{\partial w^1_{11}}=\frac{\partial E_{o_1}}{\partial w^1_{11}}+\frac{\partial E_{o_2}}{\partial w^1_{11}}$
此时便可拆解为从两条路径独立的求解该权重对不同输出值得误差影响，最后将两个值加在一起即得到该权重对整体误差的影响。
首先解： $\frac{\partial E_{o_1}}{\partial w^1_{11}}$
$\frac{\partial E_{o_1}}{\partial w^1_{11}}=\frac{\partial E_{o_1}}{\partial out_{o_1}}*\frac{\partial out_{o_1}}{\partial net_{o_1}}*\frac{\partial net_{o_1}}{\partial out_{h_1}}*\frac{\partial out_{h_1}}{\partial net_{h_1}}*\frac{\partial net_{h_1}}{\partial w^1_{11}}$
则，分别求解之：
$\frac{\partial E_{o_1}}{\partial out_{o_1}}=out_{o_1}-target_{o_1}$ ;
$\frac{\partial out_{o_1}}{\partial net_{o_1}}$ 为变量，受激活函数控制；
由于 $net_{o_1}=w^2_{11}*out_{h_1}+w^2_{21}*out_{h_2}+b_2$ ，则：
$\frac{\partial net_{o_1}}{\partial out_{h_1}}=w^2_{11}+0+0=w^2_{11}$ ;
$\frac{\partial out_{h_1}}{\partial net_{h_1}}$ 为变量，其形式受激活函数控制；
由于 $net_{h_1}=w^1_{11}*i_1+w^1_{21}*i_2+b_1$ ，则：
$\frac{\partial net_{h_1}}{\partial w^1_{11}}=i_1$ 。
故而：
$\frac{\partial E_{o_1}}{\partial w^1_{11}}=(out_{o_1}-target_{o_1})*\frac{\partial out_{o_1}}{\partial net_{o_1}}*w^2_{11}*\frac{\partial out_{h_1}}{\partial net_{h_1}}*i_1$
同理得到：
$\frac{\partial E_{o_2}}{\partial w^1_{11}}=(out_{o_2}-target_{o_2})*\frac{\partial out_{o_2}}{\partial net_{o_2}}*w^2_{12}*\frac{\partial out_{h_1}}{\partial net_{h_1}}*i_1$
因此：
$\frac{\partial E_{total}}{\partial w^1_{11}}=(out_{o_1}-target_{o_1})*\frac{\partial out_{o_1}}{\partial net_{o_1}}*w^2_{11}*\frac{\partial out_{h_1}}{\partial net_{h_1}}*i_1+(out_{o_2}-target_{o_2})*\frac{\partial out_{o_2}}{\partial net_{o_2}}*w^2_{12}*\frac{\partial out_{h_1}}{\partial net_{h_1}}*i_1$
所以， $w^1_{11}$ 的调整值为：
$\tilde{w}^1_{11}=w^1_{11}-η*\frac{\partial E_{total}}{\partial w^1_{11}}$

13.3.1.3 讨论

在这里插入图片描述

如上面公式所示，从输出层向前逐渐传导的方式进行权重参数的学习修正，但是随着神经网络层数越深，需要对激活函数求导的次数也就越多，因此在学习过程中，激活函数起到十分重要的作用。如果激活函数接近于0，则会导致 $\frac{\partial E_{total}}{\partial w^1_{11}}$ 也接近于0，通过公式： $\tilde{w}^1_{11}=w^1_{11}-η*\frac{\partial E_{total}}{\partial w^1_{11}}$ 得知， $\tilde{w}^1_{11}$ 基本不会产生多大的更新。这需要进一步对激活函数的性质进行探讨。

个人公众号

在这里插入图片描述
也欢迎访问个人网站：www.edumind.tech

李坦（BNU远程教育学）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
反向传播算法推导

13.3.1 反向传播算法推导如下图所示为一个神经网络的结构图，由于本文主要探讨激活函数在反向传播过程中的作用，因此不会带入数值进行计算，而是以两个权重的更新为案例进行公式的推导，分别为如何通过反向传播算法更新w112w^2_{11}w112和w111w^1_{11}w111的值。13.3.1.1 前向传播首先，需要知道的是，整个网络中i1i_1i1,i2i_2i2以及所有的权重值均为定值，权重值为网络初始化时按照一定概率分布随机赋值的。则h1h_1h1内部结构如下：其中，neth1n
复制链接

扫一扫

专栏目录