神经网络与深度学习系列 -反向传播算法

最新推荐文章于 2023-04-21 18:14:40 发布

Mr2021

最新推荐文章于 2023-04-21 18:14:40 发布

阅读量563

点赞数 2

分类专栏： Deep Learning

本文链接：https://blog.csdn.net/mrsong007/article/details/102743732

版权

Deep Learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

矩阵的在神经网络中的应用

本系列的上一节介绍了梯度下降算法，本节将介绍反向传播算法。利用矩阵在神经网络中，可以大大简化公式的复杂性，同时矩阵运算在反向传播中使用起来极为方便。
在这里插入图片描述
上图给出了神经网络中对权重的标注方式， $w_{jk}^l$ 表示从 ${(l-i)}^{th}$ 层的第 $k^{th}$ 个神经元到 ${l}^{th}$ 层的第 $j^{th}$ 个神经元的连接上的权重。

上图给出了神经网络中对偏置和激活值的标注方式， $b_j^l$ 表示在 $l^{th}$ 层第 $j^{th}$ 个神经元的偏置； $a_j^l$ 表示在 $l^{th}$ 层第 $j^{th}$ 个神经元的激活。

那么， $l^{th}$ 层的第 $j^{th}$ 个神经元的激活值 $a_j^l$ 可以和 $l-1）^{th}$ 层的激活值通过S型函数联系起来：
在这里插入图片描述
其中求和是在 $l-1)^{th}$ 层的所有k个神经元上进行。
定义权重矩阵 $w^l$ ， $w^l$ 的元素为连接到 $l^{th}$ 层神经元的所有权重；
定义偏置向量 $b^l$ ， $b^l$ 的元素为 $l^{th}$ 层神经元的所有偏置；
以上方程就可以写成矩阵的形式：
在这里插入图片描述
上式括号中的 $w^la^{l-1}+b^l=z^l$ 称为带权输入。第 $l$ 层的第 $j$ 个神经元的激活函数的带权输入为, $z_j^{l}=\sum_{k}w_{jk}^{l}a_k^{l-1}+b_j^{l}$

反向传播的四个基本方程

误差

反向传播的目的就是计算梯度下降中的偏导数 $\partial C/\partial w_{jk}^l$ 和 $\partial C/\partial b_{j}^l$ ,其中需要用到一个中间量 $\delta_j^l$ ,
定义 $\delta_j^l$ 为在 $l^{th}$ 层第 $j^{th}$ 个神经元上的误差。

误差的概念该如何理解？首先明确： $w_{jk}^l$ 和 $b_j^l$ 的微小变化会引起带权输入 $z_j^l$ 的变化，当带权输入 $z_j^l$ 发生一个微小变化 $\Delta z_j^l$ , 在整个代价函数 $C$ 上引起的变化为 $\frac{\partial C}{\partial z_{j}^l}\Delta z_j^l$ 。

假设我们尝试优化代价函数，试着找到一个让代价函数 $C$ 更小的微小变化 $\Delta z_j^l$ （该变化当然也是由 $w_{jk}^l$ 和 $b_j^l$ 引起的），如果 $\frac{\partial C}{\partial z_{j}^l}$ 有一个很大的值（或正或负），我们可以通过选择与 $\frac{\partial C}{\partial z_{j}^l}$ 符号相反的 $\Delta z_j^l$ 来使代价函数减小；如果 $\frac{\partial C}{\partial z_{j}^l}$ 接近0， $\frac{\partial C}{\partial z_{j}^l}\Delta z_j^l$ 也接近0，则 $\Delta z_j^l$ 就没有必要变化，即使变化在代价函数上引起的影响也微乎其微。

所以说， $\frac{\partial C}{\partial z_{j}^l}$ 会影响到 $\Delta z_j^l$ （即 $w_{jk}^l$ 和 $b_j^l$ ）的变化，所以有一种启发式的认识： $\delta_{j}^l=\frac{\partial C}{\partial z_{j}^l}=\frac{\partial C}{\partial a_{j}^l}\sigma'(z_{j}^l)$ 是神经元上微小变化的度量，称为是神经元上误差的度量。

四个方程

输出层误差方程：
用下一层的误差 $\delta^{l+1}$ 来计算当前层的误差 $\delta^{l}$ ：
代价函数关于网络中任意偏置的改变率：
代价函数关于任何一个权重的改变率：

根据方程1，当 $\sigma(z_j^L)$ 近似为0或者1的时候， $\sigma^{\prime}(z_j^L)$ $\approx$ 0,那么最终层的权重学习缓慢，这种情况称为神经元饱和。

四个方程的推导

方程1推导：
首先根据误差的定义有：

$\delta_j^L=\frac{\partial C}{\partial z_{j}^L}$ ，

应用链式法则：

$\delta_j^L=\frac{\partial C}{\partial a_{j}^L}\frac{\partial a_{j}^L}{\partial z_{j}^L}$

因为 $a_j^L=\sigma(z_j^L)$ ,所以上述方程变成：

$\delta_j^L=\frac{\partial C}{\partial a_{j}^L}\sigma^{\prime}(z_j^L)$ ，方程1得证。

方程2推导：
根据误差的定义有：

$\delta_j^l=\frac{\partial C}{\partial z_{j}^l}$

引用链式法则：

$\delta_j^l=\frac{\partial C}{\partial z_{j}^l}=\sum_{k}\frac{\partial C}{\partial z_{k}^{l+1}}\frac{\partial z_{k}^{l+1}}{\partial z_{j}^l}=\sum_{k}\frac{\partial z_{k}^{l+1}}{\partial z_{j}^l}\delta_k^{l+1}$

已知： $z_j^{l+1}=\sum_{k}w_{jk}^{l+1}a_k^l+b_j^{l+1}=\sum_{k}w_{jk}^{l+1}\sigma(z_k^l)+b_j^{l+1}$ 。作微分，得到：

$\frac{\partial z_{k}^{l+1}}{\partial z_{j}^l}=w_{kj}^{l+1}\sigma^{\prime}(z_j^l)$

带入得到：

$\delta_j^l=\sum_{k}w_{kj}^{l+1}\delta_k^{l+1}\sigma^{\prime}(z_j^l)$ ,方程2得证。

方程3推导：
引用链式法则：

$\frac{\partial C}{\partial b_{j}^l}=\frac{\partial C}{\partial a_{j}^l}\frac{\partial a_{j}^l}{\partial b_{j}^l}$

根据方程1已知： $\delta_j^l=\frac{\partial C}{\partial a_{j}^l}\sigma^{\prime}(z_j^l)$

若能证明： $\sigma^{\prime}(z_j^l)=\frac{\partial a_{j}^l}{\partial b_{j}^l}$ ,则方程3得证；

已知 $a_j^l=\sigma(z_j^l)$ 和 $z_j^{l}=\sum_{k}w_{jk}^{l}a_k^l+b_j^{l}$

则有 $\frac{\partial a_{j}^l}{\partial b_{j}^l}=\frac{\partial \sigma(z_j^l)}{\partial b_{j}^l}=\sigma^{\prime}(z_j^l)$ ,方程3得证；

方程4推导：
引用链式法则：

$\frac{\partial C}{\partial w_{jk}^l}=\frac{\partial C}{\partial z_{j}^l}\frac{\partial z_{j}^l}{\partial w_{jk}^l}=\delta_j^l\frac{\partial z_{j}^l}{\partial w_{jk}^l}$

若能求得： $\frac{\partial z_{j}^l}{\partial w_{jk}^l}=a_k^{l-1}$ ,即得证；

其中 $z_j^{l}=\sum_{k}w_{jk}^{l}a_k^{l-1}+b_j^{l}$ ,代入上式左侧得到： $\frac{\partial z_j^l}{\partial w_{jk}^l}=a_k^{l-1}$ ,方程4得证；

反向传播算法

前边说过，反向传播的目的就是计算梯度下降算法中的偏导数 $\partial C/\partial w_{jk}^l$ 和 $\partial C/\partial b_{j}^l$ ,那么显式的用算法步骤描述出来如下：

输入 $x$ ：为输入层设置对应的激活值 $a^1$ ；
前向传播：对每个 $l = 2, 3, . . . L$ 计算相应的 $z^l=w^la^{l-1}+b^l$ 和 $a^l=\sigma(z^l)$ ；
输出层误差： $\delta^L$ : 计算向量 $\delta^L=\nabla_aC\bigodot\sigma^{\prime}(z^L)$ ；
反向传播误差：对每个 $l = L - 1, L - 2, . . ., 2$ ,计算 $\delta^l=((w^{l+1})^T\delta^{l+1})\bigodot\sigma^{\prime}(z^l)$ ；
输出：代价函数的梯度由 $\frac{\partial C}{\partial w_{jk}^l}=a_k^{l-1}\delta_j^l$ 和 $\frac{\partial C}{\partial b_{j}^l}=\delta_j^l$ 得出。

检视这个算法流程，我们可以看出它为何被称为反向传播算法，误差向量 $\delta^l$ 的计算是从最后一层开始，逐步向前传递。

反向传播算法在随机梯度下降算法的应用：

在实践中，通常将反向传播算法和随机梯度下降算法进行结合使用，对于一个给定的大小为 $m$ 的小批量数据，反向传播算法在随机梯度下降算法的应用步骤为：

输入训练样样本的集合；
对每个训练样本 $x$ : 设置对应的输入激活 $a^{x,1}$ ,并执行下面的步骤：
a. 前向传播：对每个 $l = 2, 3, . . . L$ ，计算相应的 $z^{x,l}=w^la^{x,l-1}+b^l$ 和 $a^{x,l}=\sigma(z^{x,l})$ ；
b. 输出误差： $\delta^{x,L}$ : 计算向量 $\delta^{x,L}=\nabla_aC_x\bigodot\sigma^{\prime}(z^{x,L})$ ；
c. 反向传播误差：对每个 $l = L - 1, L - 2, . . ., 2$ ,计算 $\delta^{x,l}=((w^{l+1})^T\delta^{x,l+1})\bigodot\sigma^{\prime}(z^{x,l})$ ；
梯度下降：对每个 $l = L - 1, L - 2, . . ., 2$ ，根据 $w^l=w^l-\frac{\eta}{m}\sum_x\delta^{x,l}(a^{x,l-1})^T$ 和 $b^l=b^l-\frac{\eta}{m}\sum_x\delta^{x,l}$

本系列的下一节将通过代码的实现来理解上述算法的实际应用过程；

Mr2021

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习系列 -反向传播算法

矩阵的在神经网络中的应用利用矩阵在神经网络中，可以大大简化公式的复杂性，同时矩阵运算在反向传播中使用起来极为方便。上图给出了神经网络中对权重的标注方式，wjklw_{jk}^lwjkl表示从 (l−i)th{(l-i)}^{th}(l−i)th 层的第 kthk^{th}kth 个神经元到lth{l}^{th}lth 层的第 jthj^{th}jth 个神经元的连接上的权重。上图给出了...
复制链接

扫一扫