反向传播算法

最新推荐文章于 2024-07-02 20:59:51 发布

Site1997

最新推荐文章于 2024-07-02 20:59:51 发布

阅读量1.1k

点赞数 3

分类专栏：算法原理文章标签：神经网络

本文链接：https://blog.csdn.net/site1997/article/details/78938609

版权

算法原理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在神经网络中，为了最小化损失函数 $loss(w)$ ，我们会逐一对各个 $w_i$ 进行求偏导，然后沿着梯度方向更新各个 $w_i$ 的值。但是直接求导的话这整个过程会产生重复计算。
例如 $z = f(g(x)) = f(y)$ ，则 $\frac{dz}{dx} = \frac{dz}{dy}\frac{dy}{dx}$ ，假设 $x$ 是第 $i$ 层权值， $y$ 是第 $i+1$ 层的权值，如果依次求 $z$ 对于 $x,y$ 的导数需要计算两次 $\frac{dz}{dy}$ 和一次 $\frac{dy}{dx}$ 。而这时我们可以利用动态规划的思想先计算 $\frac{dz}{dy}$ 并保存下来记为 $t$ ，这时候再计算 $\frac{dz}{dx} = t\frac{dy}{dx}$ ，这样就不会出现导数的重复计算。
以上就是Backpropagation算法的思想。
这里举一个具体例子（假设我们现在处于反向传播过程中，现在要更新 $w_1$ ）：

这里要求

∂Etotal∂w1 ∂ E t o t a l ∂ w 1 $\frac{\partial E_{total}}{\partial w_1}$ ，即最后神经网络输出的损失函数值对当前

w1 w 1 $w_1$ 的偏导数，下面对它展开：

∂Etotal∂w1=∂Etotal∂(hi+1vout)⋅∂(hi+1vout)∂(hi+1vnet)⋅∂(hi+1vnet)∂w1 ∂ E t o t a l ∂ w 1 = ∂ E t o t a l ∂ ( h v i + 1 o u t ) ⋅ ∂ ( h v i + 1 o u t ) ∂ ( h v i + 1 n e t ) ⋅ ∂ ( h v i + 1 n e t ) ∂ w 1 $\frac{\partial E_{total}}{\partial w_1}=\frac{\partial E_{total}}{\partial ({h^{i+1}_v}_{out})}\cdot\frac{\partial ({h^{i+1}_v}_{out})}{\partial ({h^{i+1}_v}_{net})}\cdot\frac{\partial ({h^{i+1}_v}_{net})}{\partial w_1}$
这里，上面的

w1 w 1 $w_1$ 即为图中的

w1 w 1 $w_1$ ，

hi+1vnet h v i + 1 n e t ${h^{i+1}_v}_{net}$ 表示

hi+1v h v i + 1 $h^{i+1}_v$ 结点中线性加权后的结果，

hi+1vout h v i + 1 o u t ${h^{i+1}_v}_{out}$ 表示

hi+1v h v i + 1 $h^{i+1}_v$ 结点的最终输出，

hi+1vnet h v i + 1 n e t ${h^{i+1}_v}_{net}$ 在经过激励函数后变成

hi+1vout h v i + 1 o u t ${h^{i+1}_v}_{out}$ 。通常而言，展开后的第一项

∂Etotal∂hout ∂ E t o t a l ∂ h o u t $\frac{\partial E_{total}}{\partial h_{out}}$ 就是

error e r r o r $error$ 项（误差项），而前两项的乘积

∂Etotal∂hnet ∂ E t o t a l ∂ h n e t $\frac{\partial E_{total}}{\partial h_{net}}$ 就可以记为

δ δ $\delta$ 。下同。下面开始推导。
第一项：

∂Etotal∂(hi+1vout)=∂(Ei+2t+Ei+2t+1)∂(hi+1vout)=δi+2tw4+δi+2t+1w5=∑δi+2twv−t ∂ E t o t a l ∂ ( h v i + 1 o u t ) = ∂ ( E t i + 2 + E t + 1 i + 2 ) ∂ ( h v i + 1 o u t ) = δ t i + 2 w 4 + δ t + 1 i + 2 w 5 = ∑ δ t i + 2 w v − t $\frac{\partial E_{total}}{\partial ({h^{i+1}_v}_{out})}=\frac{\partial (E^{i+2}_t+ E^{i+2}_{t+1})}{\partial ({h^{i+1}_v}_{out})}=\delta^{i+2}_tw_4+\delta^{i+2}_{t+1}w_5=\sum\delta^{i+2}_tw_{v-t}$
（由于

∂Ei+2t∂(hi+1vout)=∂Etotal∂(hi+2tnet)⋅∂(hi+2tnet)∂(hi+1vout)=δi+2tw4 ∂ E t i + 2 ∂ ( h v i + 1 o u t ) = ∂ E t o t a l ∂ ( h t i + 2 n e t ) ⋅ ∂ ( h t i + 2 n e t ) ∂ ( h v i + 1 o u t ) = δ t i + 2 w 4 $\frac{\partial E^{i+2}_t}{\partial ({h^{i+1}_v}_{out})}=\frac{\partial E_{total}}{\partial ({h^{i+2}_t}_{net})}\cdot \frac{\partial ({h^{i+2}_t}_{net})}{\partial ({h^{i+1}_v}_{out})}=\delta^{i+2}_tw_4$ ）
这里，

Ei+2t E t i + 2 $E^{i+2}_t$ 表示

hi+1v h v i + 1 $h^{i+1}_v$ 结点来自

hi+2t h t i + 2 $h^{i+2}_t$ 的损失值，

Ei+2t+1 E t + 1 i + 2 $E^{i+2}_{t+1}$ 表示它来自

hi+2t+1 h t + 1 i + 2 $h^{i+2}_{t+1}$ 的损失值。注意，

∂Etotal∂(hi+2tnet) ∂ E t o t a l ∂ ( h t i + 2 n e t ) $\frac{\partial E_{total}}{\partial ({h^{i+2}_t}_{net})}$ 在误差反向传播到

i+1 i + 1 $i+1$ 层的时候，就已经被计算出来并且保存为

δi+2t δ t i + 2 $\delta^{i+2}_t$ 了。
第二项：

∂(hi+1vout)∂(hi+1vnet)=f′(hi+1v) ∂ ( h v i + 1 o u t ) ∂ ( h v i + 1 n e t ) = f ′ ( h v i + 1 ) $\frac{\partial ({h^{i+1}_v}_{out})}{\partial ({h^{i+1}_v}_{net})}=f'(h^{i+1}_v)$
这里，对于一个结点而言，它的净输入（线性加权总和）经过激励函数

f f $f$ 后即可以得到它的输出，于是这个导函数即为激励函数的导数。综合上述的第一项和第二项，我们可以看到相邻两层的

δ

$\delta$ 值有如下关系式：

δi+1v=(∑δi+2twv−t)⋅f′(hi+1v) δ v i + 1 = ( ∑ δ t i + 2 w v − t ) ⋅ f ′ ( h v i + 1 ) $\delta^{i+1}_v=(\sum\delta^{i+2}_tw_{v-t})\cdot f'(h^{i+1}_v)$ ，这里的

(∑δi+2twv−t) ( ∑ δ t i + 2 w v − t ) $(\sum\delta^{i+2}_tw_{v-t})$ 也就是我们所谓的

errori+2t e r r o r t i + 2 $error^{i+2}_t$ 。神经网络输出层的

error e r r o r $error$ 值就是真实值和预测值的误差。
第三项：

∂(hi+1vnet)∂w1=∂(hiuout⋅w1+hiu+1out⋅w1+bi)∂w1=hiuout ∂ ( h v i + 1 n e t ) ∂ w 1 = ∂ ( h u i o u t ⋅ w 1 + h u + 1 i o u t ⋅ w 1 + b i ) ∂ w 1 = h u i o u t $\frac{\partial ({h^{i+1}_v}_{net})}{\partial w_1}=\frac{\partial ({h^{i}_u}_{out}\cdot w_1+{h^{i}_{u+1}}_{out}\cdot w_1+b^i)}{\partial w_1}={h^{i}_u}_{out}$
这里，一个结点的线性加权总和对于它某个参数

w w $w$ 的导数值为上层某一个结点的输出，而这个输出在前向传播过程就被计算出来了。
综上所述：

\frac{\partial E_{t o t a l}}{\partial w_{1}} = (\sum δ_{t}^{i + 2} w_{v - t}) \cdot f^{'} (h_{v}^{i + 1}) \cdot {h_{u}^{i}}_{o u t} = δ_{v}^{i + 1} \cdot {h_{u}^{i}}_{o u t}

$\frac{\partial E_{total}}{\partial w_1}=(\sum\delta^{i+2}_tw_{v-t})\cdot f'(h^{i+1}_v)\cdot{h^{i}_u}_{out}=\delta^{i+1}_v\cdot {h^{i}_u}_{out}$
小结一下，

∂Etotal∂w1 ∂ E t o t a l ∂ w 1 $\frac{\partial E_{total}}{\partial w_1}$ ，也就等于

i+2 i + 2 $i+2$ 层结点的

errori+2t e r r o r t i + 2 $error^{i+2}_t$ ，乘以，当前

i+1 i + 1 $i+1$ 层激励函数的导数，乘以，它前面第

i i $i$ 层对应结点的输出

{h_{u}^{i}}_{o u t}

${h^{i}_u}_{out}$ 的总乘积。
至此，

w1 w 1 $w_1$ 的梯度方向的导数就算出来了，我们再加上学习速率后，就可以更新

w1 w 1 $w_1$ ：

w′1=w1+η∂Etotal∂w1 w 1 ′ = w 1 + η ∂ E t o t a l ∂ w 1 $w'_1=w_1+\eta\frac{\partial E_{total}}{\partial w_1}$
最后，我们就可以根据这个将最基本的BP神经网络推导一翻啦~

Site1997

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
反向传播算法

在神经网络中，为了最小化损失函数loss(w)" role="presentation" style="position: relative;">loss(w)loss(w)loss(w)，我们会逐一对各个wi" role="presentation" style="position: relative;">wiwiw_i进行求偏导，然后沿着梯度方向更新各个wi" role="presentati
复制链接

扫一扫

专栏目录