[读书笔记]后向传播算法原理

最新推荐文章于 2023-06-22 10:19:25 发布

vincent2610

最新推荐文章于 2023-06-22 10:19:25 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：神经网络后向传播算法

本文链接：https://blog.csdn.net/vincent2610/article/details/54315955

版权

机器学习专栏收录该内容

29 篇文章 0 订阅

订阅专栏

这篇读书笔记详细介绍了后向传播算法在三层神经网络中的应用，通过数学推导展示了如何计算隐藏层和输出层的权重梯度，以及如何更新权重。文中还特别提到了sigmoid函数的求导技巧，并提供了后向传播算法的总结和迭代过程。

摘要由CSDN通过智能技术生成

[读书笔记]后向传播算法原理

这里写图片描述
$k$ ：输入层神经元
$j$ ：隐藏层神经元
$i$ ：输出层神经元
$t, b$ : 偏置项(并未具体指定 $t,b$ 是哪一层的偏置项）

以三层网络为例，推导出神经网络后向传播算法的一般规律。
首先，总体误差为：

E = 1 2 \sum ζ, i (d ζ i - o ζ i) 2

$E=\frac{1}{2}\sum_{\zeta, i}(d_i^\zeta - o_i^\zeta)^2$

ζ $\zeta$ ：训练样本

dζi $d_i^\zeta$ : 样本

ζ $\zeta$ 在第

i $i$ 个神经元的标准值

oζi $o_i^\zeta$ : 样本

ζ $\zeta$ 在第

i $i$ 个神经元的预测值

后向传播细节

计算隐藏层-加权和

netζj=∑kwkjoζk+bj
- 计算隐藏层-激励值
  $o ζ j = f (n e t ζ j) = f (\sum k w k j o ζ k + b j)$ $o_j^\zeta=f(net_j^\zeta)=f(\sum_kw_{kj}o_k^\zeta+b_j)$
- 计算输出层-加权和
  $n e t ζ i = \sum k w j i o ζ j + b i = \sum j w j i \cdot f (\sum k w k j o ζ k + t j) + b i$ $net_i^\zeta=\sum_kw_{ji}o_j^\zeta+b_i=\sum_jw_{ji}\cdot f(\sum_kw_{kj}o_k^\zeta+t_j)+b_i$
- 计算输出层-激励值
  $o ζ i = f (n e t ζ i) = f (\sum j w j i o ζ j + b i) = f (\sum j w j i \cdot f (w k j o ζ k + t j) + b i)$ $o_i^\zeta=f(net_i^\zeta)=f(\sum_jw_{ji}o_j^\zeta+b_i)=f(\sum_jw_{ji}\cdot f(w_{kj}o_k^\zeta+t_j)+b_i)$
- 所有公式代入 $E$
  $E = 1 2 \sum ζ, i [d ζ i - f (\sum j w j i \cdot f (\sum k w k j o ζ k + t j) + b i)] 2$ $E=\frac{1}{2}\sum_{\zeta,i}[d_i^\zeta-f(\sum_jw_{ji}\cdot f(\sum_kw_{kj}o_k^\zeta+t_j)+b_i)]^2$
- 计算输出层和隐藏层的权重梯度
- 计算 $\Delta W_{ji}$
  $\partial E \partial w j i = \partial E \partial o ζ i \cdot \partial o ζ i \partial n e t ζ i \cdot \partial n e t ζ i \partial w j i = - \sum ζ (d ζ i - o ζ i) \cdot f' (n e t ζ i) \cdot o ζ j = - \sum ζ δ ζ i \cdot o ζ j$ $\frac{\partial E}{\partial w_{ji}}=\frac{\partial E}{\partial o_i^\zeta}\cdot\frac{\partial o_i^\zeta}{\partial net_i^\zeta}\cdot\frac{\partial net_i^\zeta}{\partial w_{ji}}=-\sum_\zeta (d_i^\zeta-o_i^\zeta)\cdot f'(net_i^\zeta)\cdot o_j^\zeta=-\sum_\zeta \delta_i^\zeta \cdot o_j^\zeta$ $Δ w j i = - η \cdot \partial E \partial w j i = η \cdot \sum ζ δ ζ i \cdot o ζ j$ $\Delta w_{ji}=-\eta\cdot \frac{\partial E}{\partial w_{ji}}=\eta\cdot \sum_\zeta\delta_i^\zeta \cdot o_j^\zeta$
  where
  $δ ζ i = (d ζ i - o ζ i) \cdot f' (n e t ζ i)$ $\delta_i^\zeta=(d_i^\zeta-o_i^\zeta)\cdot f'(net_i^\zeta)$
  for output neuron
- $\Delta w_{kj}$
  $\partial E \partial w k j = \partial E \partial o ζ j \cdot \partial o ζ j \partial n e t ζ j \cdot \partial n e t ζ j \partial w k j = - \sum ζ, i (d ζ i - o ζ i) \cdot f' (n e t ζ i) \cdot w j i \cdot f' (n e t ζ j) \cdot o ζ k = - \sum ζ, i δ ζ i \cdot w j i \cdot f' (n e t ζ j) \cdot o ζ k = - \sum ζ δ ζ j \cdot o ζ k$ $\frac{\partial E}{\partial w_{kj}}=\frac{\partial E}{\partial o_j^\zeta}\cdot\frac{\partial o_j^\zeta}{\partial net_j^\zeta}\cdot\frac{\partial net_j^\zeta}{\partial w_{kj}}=-\sum_{\zeta,i} (d_i^\zeta-o_i^\zeta)\cdot f'(net_i^\zeta)\cdot w_{ji}\cdot f'(net_j^\zeta)\cdot o_k^\zeta=-\sum_{\zeta,i} \delta_i^\zeta\cdot w_{ji}\cdot f'(net_j^\zeta) \cdot o_k^\zeta=-\sum_\zeta\delta_j^\zeta\cdot o_k^\zeta$ $Δ w k j = - η \cdot \partial E \partial w k j = η \cdot \sum ζ δ ζ j \cdot o ζ k$ $\Delta w_{kj}=-\eta\cdot \frac{\partial E}{\partial w_{kj}}=\eta\cdot \sum_\zeta \delta_j^\zeta \cdot o_k^\zeta$
  where
  $δ ζ j = f' (n e t ζ j) \cdot \sum i w j i \cdot δ ζ i$ $\delta_j^\zeta=f'(net_j^\zeta)\cdot \sum_iw_{ji}\cdot\delta_i^\zeta$
  for hidden neuron
- 一般地，对于一条权边 $p→q$ :
  $Δ w p q = η \cdot \sum ζ δ q \cdot o p$ $\Delta w_{pq}=\eta\cdot \sum_\zeta\delta_q\cdot o_p$ $w n e w p q = w o l d p q + Δ w p q$ $w_{pq}^{new}=w_{pq}^{old}+\Delta w_{pq}$
  其中，
  $o$ 为激励值，
  $\delta$ 若于输出层，则为公式7；若于隐藏层，则为公式8.
- sigmoid函数求导技巧
  $o ζ l = f (n e t ζ l) = 1 1 + e - n e t ζ l$ $o_l^\zeta=f(net_l^\zeta)=\frac{1}{1+e^{-net_l^\zeta}}$ $f' (n e t ζ l) = e - n e t ζ l ( 1 + e - n e t ζ l ) 2 = o ζ l \cdot (1 - o ζ l)$ $f'(net_l^\zeta)=\frac{e^{-net_l^\zeta}}{(1+e^{-net_l^\zeta})^2}=o_l^\zeta\cdot(1-o_l^\zeta)$
- 所以前面公式可以改写为：
  for output neuron
  $δ ζ i = (d ζ i - o ζ i) \cdot o ζ i \cdot (1 - o ζ i)$ $\delta_i^\zeta=(d_i^\zeta-o_i^\zeta)\cdot o_i^\zeta\cdot(1-o_i^\zeta)$ $Δ w j i = η \cdot \sum ζ (d ζ i - o ζ i) \cdot o ζ i \cdot (1 - o ζ i)$ $\Delta w_{ji}=\eta\cdot\sum_{\zeta}(d_i^\zeta-o_i^\zeta)\cdot o_i^\zeta\cdot(1-o_i^\zeta)$
  for hidden neuron
  $δ ζ j = o ζ j \cdot (1 - o ζ j) \cdot \sum i w j i \cdot δ ζ i$ $\delta_j^\zeta=o_j^\zeta\cdot(1-o_j^\zeta)\cdot\sum_i w_{ji}\cdot\delta_i^\zeta$ $Δ w k j = η \cdot \sum ζ δ ζ j \cdot o ζ k = η \cdot \sum ζ o ζ j \cdot (1 - o ζ j) \cdot \sum i w j i \cdot δ ζ i \cdot o ζ k$ $\Delta w_{kj}=\eta\cdot\sum_\zeta \delta_j^\zeta\cdot o_k^\zeta=\eta\cdot\sum_\zeta o_j^\zeta\cdot(1-o_j^\zeta)\cdot\sum_iw_{ji}\cdot\delta_i^\zeta\cdot o_k^\zeta$
- 后向传播总结
  
  Repeat until termination criterion satisfied
  　1.forward pass
  　calculate actual output for every layer: $o$
  　2.backward pass
  　 $w_{pq}(t+1)=w_{pq}(t)+\Delta w_{pg}$
  　 $\Delta w_{pq}=\eta\cdot\delta_q\cdot o_p$ 　
  　 $\delta_i=(d_i-o_i)\cdot o_i\cdot(1-o_i)$ 　
  　 $\delta_j=o_j\cdot(1-o_j)\cdot\sum_iw_{ji}\cdot\delta_i$ 　
  　
  　
  
  参考: http://sydney.edu.au/engineering/it/courses/comp4302/ann4-6s.pdf/

vincent2610

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[读书笔记]后向传播算法原理

后向传播算法原理 kk：输入层神经元个数索引 jj：隐藏层神经元个数索引 ii：输出层神经元个数索引 ζ\zeta：训练样本个数索引从这段截取的三层网络中，我们推导出后向传播算法的一般规律。首先，总的误差为： E=12∑ζ,i(dζi,oζi)2E=\frac{1}{2}\sum_{\zeta, i}(d_i^\zeta, o_i^\zeta)^2dζid_i^\zeta
复制链接

扫一扫