Backpropagation 反向传播算法详细推导

最新推荐文章于 2024-07-25 09:47:49 发布

estsaon

最新推荐文章于 2024-07-25 09:47:49 发布

阅读量211

点赞数

分类专栏：神经网络算法文章标签：神经网络算法

本文链接：https://blog.csdn.net/gf4w5frwt/article/details/79809217

版权

神经网络同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

算法

1 篇文章 0 订阅

订阅专栏

BP 神经网络模型

单隐层感知器又称为三层感知器，包括输入层、隐层和输出层.
三层感知器中，设输入向量 $X$ 、隐层输出向量 $Y$ 和输出层向量 $O$ 分别为：

X = [\begin{matrix} x_{0} = - 1 \\ x_{1} \\ ⋮ \\ x_{i} \\ ⋮ \\ x_{n} \end{matrix}], Y = [\begin{matrix} y_{0} = - 1 \\ y_{1} \\ ⋮ \\ y_{j} \\ ⋮ \\ y_{m} \end{matrix}], O = [\begin{matrix} o_{1} \\ ⋮ \\ o_{k} \\ ⋮ \\ o_{l} \end{matrix}]

$X=\begin{bmatrix}{x_{0}=-1}\\{x_{1}}\\{\vdots}\\{x_{i}}\\{\vdots}\\{x_{n}}\\\end{bmatrix}, Y=\begin{bmatrix}{y_{0}=-1}\\{y_{1}}\\{\vdots}\\{y_{j}}\\{\vdots}\\{y_{m}}\\\end{bmatrix}, O=\begin{bmatrix}{o_{1}}\\{\vdots}\\{o_{k}}\\{\vdots}\\{o_{l}}\\\end{bmatrix}$

输入层到隐层的权值矩阵 $V$ 、隐层到输出层的权值矩阵 $W$ 分别为：

V = [V 1 V 2 \dots V j \dots V m] W = [W 1 W 2 \dots W k \dots W l]

$V=\begin{bmatrix}{V_{1}}&{V_{2}}&{\cdots}&{V_{j}}&{\cdots}&{V_{m}}\end{bmatrix}\\ W=\begin{bmatrix}{W_{1}}&{W_{2}}&{\cdots}&{W_{k}}&{\cdots}&{W_{l}}\end{bmatrix}$
其中列向量

Vj V j $V_{j}$ 为对应隐层的第

j j $j$ 个神经元对应的权向量，列向量

W_{k}

$W_{k}$ 为对应输出层的第

k k $k$ 个神经元对应的权向量，即

V_{j} = [\begin{matrix} v_{0 j} \\ v_{1 j} \\ ⋮ \\ v_{i j} \\ ⋮ \\ v_{n j} \end{matrix}], W_{k} = [\begin{matrix} w_{0 k} \\ w_{1 k} \\ ⋮ \\ w_{j k} \\ ⋮ \\ w_{m k} \end{matrix}]

$V_{j}=\begin{bmatrix}{v_{0j}}\\{v_{1j}}\\{\vdots}\\{v_{ij}}\\{\vdots}\\{v_{nj}}\end{bmatrix}, W_{k}=\begin{bmatrix}{w_{0k}}\\{w_{1k}}\\{\vdots}\\{w_{jk}}\\{\vdots}\\{w_{mk}}\end{bmatrix}$
则对于输出层有：

o k = = = = f (n e t k) f (- w 0 k + w 1 k y 1 + w 2 k y 2 + \dots + w j k y j + \dots + w m k y m) f (\sum j = 0 m w j k y j) f (W T k \cdot Y)

$\begin{eqnarray} o_{k}&=&f(net_{k})\nonumber\\ &=&f(-w_{0k}+w_{1k}y_{1}+w_{2k}y_{2}+\cdots+w_{jk}y_{j}+\cdots+w_{mk}y_{m})\nonumber\\ &=&f(\sum_{j=0}^{m}w_{jk}y_{j})\nonumber\\ &=&f(W_{k}^{T}\cdot Y)\nonumber \end{eqnarray}$
对于隐层有：

y j = = = = f (n e t j) f (- v 0 j + v 1 j x 1 + v 2 j x 2 + \dots + v i j x j + \dots + v n j x n) f (\sum i = 0 n v i j x i) f (V T j \cdot X)

$\begin{eqnarray} y_{j}&=&f(net_{j})\nonumber\\ &=&f(-v_{0j}+v_{1j}x_{1}+v_{2j}x_{2}+\cdots+v_{ij}x_{j}+\cdots+v_{nj}x_{n})\nonumber\\ &=&f(\sum_{i=0}^{n}v_{ij}x_{i})\nonumber\\ &=&f(V_{j}^{T}\cdot X)\nonumber \end{eqnarray}$
其中转移函数

f(x) f ( x ) $f(x)$ 均为单极性 Sigmoid 函数：

f (x) = 1 1 + e - x

$f(x)=\frac{1}{1+e^{-x}}$
其导函数为：

f' (x) = f (x) [1 - f (x)]

$f^{'}(x)=f(x)[1-f(x)]$

BP 学习算法

网络误差定义、权值调整思路

输出向量对应期望输出向量 $d$ 为：

d = [\begin{matrix} d_{1} \\ d_{2} \\ ⋮ \\ d_{k} \\ ⋮ \\ d_{l} \end{matrix}]

$d=\begin{bmatrix}{d_{1}}\\{d_{2}}\\{\vdots}\\{d_{k}}\\{\vdots}\\{d_{l}}\\\end{bmatrix}$
当网络输出与期望输出不相等时，定义输出误差

E E $E$ ：

\begin{array}{rcl} E & = & \frac{1}{2} \sum_{k = 1}^{l} (d_{k} - o_{k})^{2} \\ = & \frac{1}{2} \sum_{k = 1}^{l} (d_{k} - f (n e t_{k}))^{2} \\ = & \frac{1}{2} \sum_{k = 1}^{l} (d_{k} - f (\sum_{j = 0}^{m} w_{j k} y_{j}))^{2} \\ = & \frac{1}{2} \sum_{k = 1}^{l} (d_{k} - f (\sum_{j = 0}^{m} w_{j k} f (\sum_{i = 0}^{n} v_{i j} x_{i})))^{2} \end{array}

$\begin{eqnarray} E&=&\frac{1}{2}\sum_{k=1}^{l}(d_{k}-o_{k})^{2}\nonumber\\ &=&\frac{1}{2}\sum_{k=1}^{l}(d_{k}-f(net_{k}))^{2}\nonumber\\ &=&\frac{1}{2}\sum_{k=1}^{l}(d_{k}-f(\sum_{j=0}^mw_{jk}y_{j}))^{2}\nonumber\\ &=&\frac{1}{2}\sum_{k=1}^{l}(d_{k}-f(\sum_{j=0}^mw_{jk}f(\sum_{i=0}^{n}v_{ij}x_{i})))^{2}\nonumber\\ \end{eqnarray}$
可以看出网络误差是各层权值

wjk w j k $w_{jk}$ 、

vij v i j $v_{ij}$ 的函数，故要使得误差减小，应使权值的变化量与误差的梯度下降成正比：

Δ w j k Δ v i j = = - η \partial E \partial w j k j \in [0, m], k \in [1, l] - η \partial E \partial v i j i \in [0, n], j \in [1, m]

$\begin{eqnarray} \Delta w_{jk} &=& - \eta \frac{\partial E}{\partial w_{jk}} \quad j \in [0,m], k \in [1, l] \nonumber\\ \Delta v_{ij} &=& - \eta \frac{\partial E}{\partial v_{ij}} \quad i \in [0,n], j \in [1, m] \nonumber \end{eqnarray}$
注意两个

j j $j$ 范围的区别.

BP 算法推导

\begin{array}{rcl} Δ w_{j k} & = & - η \frac{\partial E}{\partial w_{j k}} = - η \frac{\partial E}{\partial o_{k}} \frac{\partial o_{k}}{\partial n e t_{k}} \frac{\partial n e t_{k}}{\partial w_{j k}} \\ Δ v_{i j} & = & - η \frac{\partial E}{\partial v_{i j}} = - η \frac{\partial E}{\partial y_{j}} \frac{\partial y_{j}}{\partial n e t_{j}} \frac{\partial n e t_{j}}{\partial v_{i j}} \end{array}

$\begin{eqnarray} \Delta w_{jk}&=&-\eta \frac{\partial E}{\partial w_{jk}}=-\eta \frac{\partial E}{\partial o_{k}} \frac{\partial o_{k}}{\partial net_{k}} \frac{\partial net_{k}}{\partial w_{jk}}\nonumber\\ \Delta v_{ij}&=&-\eta \frac{\partial E}{\partial v_{ij}}=-\eta \frac{\partial E}{\partial y_{j}} \frac{\partial y_{j}}{\partial net_{j}} \frac{\partial net_{j}}{\partial v_{ij}}\nonumber \end{eqnarray}$
注意到：

E = = 1 2 (d 1 - o 1) 2 + \dots + 1 2 (d k - o k) 2 + \dots + 1 2 (d l - o l) 2 1 2 (d 1 - f (- w 01 + w 11 y 1 + \dots + w j 1 y j + \dots + w m 1 y m)) 2 + \dots + 1 2 (d k - f (- w 0 k + w 1 k y 1 + \dots + w j k y j + \dots + w m k y m)) 2 + \dots + 1 2 (d l - f (- w 0 k + w 1 k y 1 + \dots + w j l y j + \dots + w m l y m)) 2

$\begin{eqnarray} E&=&\frac{1}{2}(d_{1}-o_{1})^{2}+\cdots+\frac{1}{2}(d_{k}-o_{k})^{2}+\cdots+\frac{1}{2}(d_{l}-o_{l})^{2}\nonumber\\ &=&\frac{1}{2}(d_{1}-f(-w_{01}+w_{11}y_{1}+\cdots+w_{j1}y_{j}+\cdots+w_{m1}y_{m}))^{2}+\cdots+\frac{1}{2}(d_{k}-f(-w_{0k}+w_{1k}y_{1}+\cdots+w_{jk}y_{j}+\cdots+w_{mk}y_{m}))^{2}+\cdots+\frac{1}{2}(d_{l}-f(-w_{0k}+w_{1k}y_{1}+\cdots+w_{jl}y_{j}+\cdots+w_{ml}y_{m}))^{2}\nonumber \end{eqnarray}$
故有：

\partial E \partial o k = - (d k - o k) \partial E \partial y j = = - (d 1 - o 1) f' (n e t 1) w j 1 - \dots - (d k - o k) f' (n e t k) w j k - \dots - (d l - o l) f' (n e t l) w j l - \sum k = 1 l (d k - o k) f' (n e t k) w j k

$\frac{\partial E}{\partial o_{k}}=-(d_{k}-o_{k})\\ \begin{eqnarray} \frac{\partial E}{\partial y_{j}} &=&-(d_{1}-o_{1})f^{'}(net_{1})w_{j1}-\cdots-(d_{k}-o_{k})f^{'}(net_{k})w_{jk}-\cdots-(d_{l}-o_{l})f^{'}(net_{l})w_{jl}\nonumber\\ &=&-\sum_{k=1}^{l}(d_{k}-o_{k})f^{'}(net_{k})w_{jk}\nonumber \end{eqnarray}$
注意到：

n e t k = - w 0 k + w 1 k y 1 + w 2 k y 2 + \dots + w j k y j + \dots + w m k y m n e t j = - v 0 j + v 1 j x 1 + v 2 j x 2 + \dots + v i j x j + \dots + v n j x n

$net_{k}=-w_{0k}+w_{1k}y_{1}+w_{2k}y_{2}+\cdots+w_{jk}y_{j}+\cdots+w_{mk}y_{m}\\ net_{j}=-v_{0j}+v_{1j}x_{1}+v_{2j}x_{2}+\cdots+v_{ij}x_{j}+\cdots+v_{nj}x_{n}$
故：

\partial n e t k \partial w j k = y j, \partial n e t j \partial v i j = x j

$\frac{\partial net_{k}}{\partial w_{jk}}=y_{j},\frac{\partial net_{j}}{\partial v_{ij}}=x_{j}$
所以有：

Δ w j k Δ v i j = = = = = = = = - η \partial E \partial o k \partial o k \partial n e t k \partial n e t k \partial w j k η (d k - o k) f' (n e t k) y j η (d k - o k) o k (1 - o k) y j η δ o k y j - η \partial E \partial y j \partial y j \partial n e t j \partial n e t j \partial v i j η \sum k = 1 l [(d k - o k) f' (n e t k) w j k] f' (n e t j) x i η \sum k = 1 l (δ o k w j k) y j (1 - y j) x i η δ y j x i

$\begin{eqnarray} \Delta w_{jk}&=&-\eta \frac{\partial E}{\partial o_{k}} \frac{\partial o_{k}}{\partial net_{k}} \frac{\partial net_{k}}{\partial w_{jk}} \nonumber\\ &=&\eta (d_{k}-o_{k}) f^{'}(net_{k}) y_{j} \nonumber\\ &=&\eta (d_{k}-o_{k}) o_{k} (1-o_{k}) y_{j} \nonumber\\ &=&\eta \delta^{o}_{k} y_{j} \nonumber\\ \Delta v_{ij}&=&-\eta \frac{\partial E}{\partial y_{j}} \frac{\partial y_{j}}{\partial net_{j}} \frac{\partial net_{j}}{\partial v_{ij}} \nonumber\\ &=&\eta \sum_{k=1}^{l}[(d_{k}-o_{k})f^{'}(net_{k})w_{jk}] f^{'}(net_{j})x_{i} \nonumber\\ &=&\eta \sum_{k=1}^{l}(\delta^{o}_{k}w_{jk}) y_{j}(1-y_{j}) x_{i} \nonumber\\ &=&\eta \delta_{j}^{y} x_{i} \nonumber \end{eqnarray}$
其中

δok δ k o $\delta^{o}_{k}$ 和

δyj δ j y $\delta_{j}^{y}$ 分别定义为输出层和隐层的误差信号.
由此我们将其推广至有

h h $h$ 层隐层的网络结构，同时为了方便编程实现，将其向量化，得到如下公式：

δ^{h + 1} = (d - o) . * f^{'} (o) δ^{h} = (W^{h + 1} [1 :] * δ^{h + 1}) . * f^{'} (y^{h} [1 :]) Δ W^{h} = η (y^{h - 1} * (δ^{h})^{T})

$\delta^{h+1} = (d - o) .* f'(o)\\ \delta^{h} = (W^{h+1}[1:] * \delta ^{h+1}) .* f'(y^{h}[1:])\\ \Delta W^{h} = \eta (y^{h-1} * (\delta ^{h})^{T})$

estsaon

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Backpropagation 反向传播算法详细推导

BP 神经网络模型单隐层感知器又称为三层感知器，包括输入层、隐层和输出层. 三层感知器中，设输入向量 XXX、隐层输出向量 YYY 和输出层向量 OOO 分别为： X=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢x0=−1x1⋮xi⋮xn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥,Y=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢y0=−1y1⋮yj⋮ym⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥,O=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢o1⋮ok⋮ol⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥X=[x...
复制链接

扫一扫

专栏目录