反向传播算法(BP)

最新推荐文章于 2023-02-06 15:42:03 发布

yougwypf1991

最新推荐文章于 2023-02-06 15:42:03 发布

阅读量278

点赞数

分类专栏：人工智能机器学习文章标签：神经网络深度学习算法人工智能

本文链接：https://blog.csdn.net/KangKermit/article/details/106841472

版权

人工智能同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

机器学习

23 篇文章 0 订阅

订阅专栏

1 概述

反向传播其实是对权重和偏置变化影响代价函数过程的理解。最终极的含义就是计算偏导数 $\frac{\partial C}{\partial\omega_{jk}^{l}}$ 和 $\frac{\partial C}{\partial b_{j}^{l}}$ 。为了计算这些只，引入中间变量 $\delta_j^l$ ，它表示在第 $l$ 层的第 $j$ 个神经元上的误差。反向传播将给出误差计算的流程，然后将其关联到 $\frac{\partial C}{\partial\omega_{jk}^{l}}$ 和 $\frac{\partial C}{\partial b_{j}^{l}}$ 上。因此，切确的说它应该叫做误差反向传播。由于人工神经网络的输出结果与实际结果存在误差，即计算估计值与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层。

2 定义

定义第 $l$ 层的第 $j$ 个神经元上的误差为 $\delta_j^l$ ，则有：
$\delta_j^l=\frac{\partial C}{\partial z_j^l}$
然后用下一层的误差 $\delta^{l+}$ 表示成当前层的误差 $\delta^l$ ：
$\delta^l=((\omega^{l+1})^T\delta^{l+1})\sigma^{\prime}(z^l)$
有了上述公式，我们可以将反向传播算法显式的表达出来：

输入样本 $x$ ，为输入层设置对应的激活值 $\alpha^l$ ；
前向传播：对于每一层 $l = 1, 2, . . ., L$ ，计算加权输出 $z$ 和激活值 $\alpha$ ：
$z^l=\omega^l\alpha^{l-1}+b^l \\ \alpha^l=\sigma(z^l)$
输出层误差 $\delta^L$ ：
$\delta^L=\frac{\partial C}{\partial \alpha}\bigodot \sigma(z)$
反向误差传播：对每一层， $L = L - 1, L - 2, . . ., 2$ ，计算：
$\delta^l=((\omega^{l+1})^T\delta^{l+1})\sigma^{\prime}(z^l)$
输出：代价函数的梯度由 $\frac{\partial C}{\partial\omega_{jk}^{l}}=\alpha_k^{l-1}\cdot\delta_j^l$ 和 $\frac{\partial C}{\partial b_j^l}=\delta_j^l$ 给出。

3原理推导

在这里插入图片描述
如图所示，变量解释如下：

$\omega_{jk}^{l}$ ：是指从 $l - 1$ 层的第 $k$ 个神经元到第 $l$ 层的第 $j$ 个神经元的权重；
$b_l^j$ ：是指第 $l$ 层的第 $j$ 个神经元的偏置；
$z_j^l$ ：是指第 $l$ 层的第 $j$ 个神经元的加权输入；
$\alpha_j^l$ ：是指第 $l$ 层的第 $j$ 个神经元的加权激活值。
变量之间的关系如下：
$z_j^{l+1}=\sum_k\omega_{jk}^{l+1}\alpha_k^l+b_j^{l+1}$
指第 $l + 1$ 层的第 $j$ 个神经元的加权输入等于上一层所有激活值乘以对应第 $l$ 层对应神经元到第 $l + 1$ 层的第 $j$ 个神经元的权重加上第 $l + 1$ 层的第 $j$ 个神经元的偏置。
$\alpha_j^l=\sigma(z_j^l)$
指第 $l$ 层的第 $j$ 个神经元的激活值等于第 $l$ 层的第 $j$ 个神经元的带权输入在激活函数上的作用值。

误差计算

即：
$\delta^L=\frac{\partial C}{\partial \alpha}\cdot \sigma^{\prime}(z)$
证明：
因为 $\delta_j^l=\frac{\partial C}{\partial z_j^l}$
即第 $;$ 层的第 $j$ 个神经元的误差等于代价函数对第 $l$ 层的第 $j$ 个神经元带权输入的偏导数。这是因为带权输入直接与实际的输入相关联，如果带权输入产生了 $\Delta z_j^l$ 的变化，那么激活值则由 $\sigma(z_j^l)$ 变为 $\sigma(z_j^l+\Delta z_j^l)$ 。这个变化会向⽹络后⾯的层进⾏传播，最终导致整个代价产生 $\frac{\partial C}{\partial z_j^l}\Delta z_j^l$ 的变化，因此由此启发使用 $\frac{\partial C}{\partial z_j^l}$ 来表征误差。根据链式法则：
$\delta_j^l=\frac{\partial C}{\partial z_j^l}=\frac{\partial C}{\partial \alpha_j^l}\frac{\partial \alpha_j^l}{\partial z_j^l}=\frac{\partial C}{\partial \alpha_j^l}\sigma^{\prime}{z_j^l}$
这是对于一个神经元而言的，那么推广之，得到公式：
$\delta^L=\frac{\partial C}{\partial \alpha}\sigma^{\prime}(z)$

误差传播

即：
$\delta^l=((\omega^{l+1})^T\delta^{l+1})\sigma^{\prime}(z^l)$
证明：
因为 $\delta_j^l=\frac{\partial C}{\partial z_j^l}$
由链式法则:
$\delta_j^l=\sum_k \frac{\partial C}{\partial z_k^{l+1}}\frac{\partial z_k^{l+1}}{\partial \alpha_j^l}\frac{\partial \alpha_j^l}{\partial z_j^l}=\sum_k \delta_k^{l+1} \frac{\partial(\omega_{kj}^{l+1}\alpha_j^l+b_k^{l+1})}{\partial \alpha_j^l}\sigma^{\prime}(z_j^l)=\sum_k \delta_k^{l+1} \omega_{kj}^{l+1}\sigma^{\prime}(z_j^l)$
最后推广到矩阵形式，得到：
$\delta^l=((\omega^{l+1})^T\delta^{l+1})\sigma^{\prime}(z^l)$

代价函数对权重的偏导数

即：
$\frac{\partial C}{\partial\omega_{jk}^{l}}=\alpha_k^{l-1}\cdot\delta_j^l$
证明：
$\frac{\partial C}{\partial\omega_{jk}^{l}}=\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial\omega_{jk}^{l}}=\delta_j^l\frac{\partial(\omega_{jk}^l\alpha_k^{l-1}+b_j^l)}{\partial\omega_{jk}^{l}}=\delta_j^l\alpha_k^{l-1}$

代价函数对偏置的偏导数

即：
$\frac{\partial C}{\partial b_j^l}=\delta_j^l$
证明：
由链式法则，并且已知 $z^l=\omega^l\alpha^{l-1}+b^l$ ，得到：
$\frac{\partial C}{\partial b_j^l}=\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial b_j^l} =\delta_j^l\frac{\partial(\omega_{jk}^l\alpha_k^{l-1}+b_j^l)}{\partial b_j^l}=\delta_j^l$