深度学习基础-反向传播推导

qq_57031183

已于 2024-08-08 11:30:20 修改

阅读量572

点赞数 30

分类专栏：深度学习记录文章标签：深度学习人工智能

于 2024-08-08 11:25:09 首次发布

本文链接：https://blog.csdn.net/qq_57031183/article/details/141021980

版权

深度学习记录专栏收录该内容

2 篇文章 0 订阅

订阅专栏

感知机

感知机接收若干个二进制输入 $x_1,x_2,\cdots,x_n$ ，引入权重 $w_1,w_2,\cdots,w_n$ ，表示输入对输出的重要性，生成一个二进制输出。可以将感知机看作根据权重做决策的机器。

$输出=\begin{cases}0\ \ 如果\sum_jw_jx_j\le 阈值\\1\ \ 如果\sum_jw_jx_j>阈值\end{cases}$

$输出=\begin{cases}0\ \ 如果w\cdot x+b\le0\\1\ \ 如果w\cdot x+b>0\end{cases}$

用偏置 $b = - 阈值$ 替代

在这里插入图片描述

感知机实现与非门

在这里插入图片描述

$(- 2) * 0 + (- 2) * 0 + 3 = 3 > 0$

$(- 2) * 1 + (- 2) * 1 + 3 = - 1 < 0$

$(- 2) * 1 + (- 2) * 0 + 3 = 1 > 0$

通过修改权重和偏置调整神经网络的表现，但单个感知机只输出0/1，偏置和权重的微小改变可能导致输出结果翻转，导致整个网络产生复杂的剧变。例如，识别图像时，前一张图像是猫，此时的网络权重输出是“猫”，下一张图像是狗，网络通过调整权重，输出“狗”，但此时的权重，输入猫图像，网络可能输出“乱码”。

因此，使网络能够学习的关键在于权重和偏置的微小变化只会引动输出发生微小变化。

在这里插入图片描述

sigmoid神经元（logistic神经元）

此时输入 $x$ 是[0,1]之间的连续变量

$ouput=\sigma(w\cdot x+b)=\frac{1}{1+exp(-\sum_jw_jx_j-b)}$

$\sigma(z)=\frac{1}{1+e^{-z}}$

在这里插入图片描述

将原神经元的激活函数（阶跃函数）进行平滑，此时输出变化如下形式：

$\Delta output\approx\sum_j\frac{\partial\ ouput}{\partial\ w_j}\Delta w_j+\frac{\partial\ output}{\partial\ b}\Delta b$

为了训练网络拟合训练数据，引入代价函数，使得输出和标签接近。

均方误差代价函数

$C(w,b)=\frac{1}{2n}\sum_x||y(x)-a||^2$

$x$ 为一个训练样本， $a$ 为该训练样本标签， $n$ 表示总训练样本数。

为什么引入代价函数？

例如，对于图像分类问题，感兴趣的是正确分类的图像数量，不直接最大化分类正确图像数量而引入均方误差间接指标？大部分情况下，权重和偏置的微小变化完全不改变正确分类图像数量，很难通过改变权重和偏置提升模型表现。因此需要寻找平滑的代价函数以调整权重和偏置。

梯度下降

实现“最小化”代价函数。

假设最小化某个函数 $C(v),v=v_1,v_2,\cdots$ ，以 $v_1,v_2$ 两个变量为例。

$\Delta C\approx\frac{\partial\ C}{\partial\ v_1}\Delta v_1+\frac{\partial\ C}{\partial\ v_2}\Delta v_2$

寻找 $\Delta v_1,\Delta v_2$ ，使得 $\Delta C$ 为负。记 $\Delta v=(\Delta v_1,\Delta v_2)^T$ ，梯度 $\nabla C=(\frac{\partial\ C}{\partial\ v_1},\frac{\partial\ C}{\partial\ v_2})^T$ 。因此，函数C的变化为：

$\Delta C\approx\nabla C\cdot \Delta v$

因此，使得 $|\Delta C|$ 最大， $\Delta v$ 应该与 $\nabla C$ 方向相同（正向或反向）。

设 $\Delta v=-\eta \nabla C$ ， $\eta$ 为步长（学习率）。

$\Delta C\approx-\eta \nabla C\cdot\nabla C=-\eta||\nabla C||^2$

$v\rightarrow v\prime=v-\eta\nabla C$

因此，训练神经网络就是寻找最小化代价函数的权重 $w_k$ 和偏置 $b_l$ 。权重 $w_k$ 和偏置 $b_l$ 更新方式如下：

$w_k\rightarrow w_k^{\prime}=w_k-\eta\frac{\partial \ C}{\partial \ w_k}$

$b_l\rightarrow b_l^{\prime}=b_l-\eta\frac{\partial \ C}{\partial \ b_l}$

实际上，损失函数 $C=\frac{1}{n}\sum_xC_x$ 是定义在所有训练样本上的，理论上求梯度 $\nabla C=\frac{1}{n}\sum_x\nabla C_x$ ，需要为每个训练样本单独计算梯度值 $\nabla C_x$ ，再求均值。

随机梯度下降：

小批量训练样本梯度代替整体训练样本梯度，设每个批次选取 $m$ 个训练样本 $x_1,x_2,\cdots,x_m$ 。

$\frac{\sum_{j=1}^m\nabla C_{x_j}}{m}\approx\frac{\sum_x\nabla C_x}{n}=\nabla C$

$w_k\rightarrow w_k^{\prime}=w_k-\frac{\eta}{m}\sum_j\frac{\partial \ C_{x_j}}{\partial \ w_k}$

$b_l\rightarrow b_l^{\prime}=b_l-\frac{\eta}{m}\sum_j\frac{\partial \ C_{x_j}}{\partial \ b_l}$

反向传播公式推导

符号定义：

$w_{jk}^l$ 表示第 $l - 1$ 层的第 $k$ 个神经元到第 $l$ 层的第 $j$ 个神经元连接的权重。

在这里插入图片描述

$b^l_j$ 表示第 $l$ 层第 $j$ 个神经元的偏置， $a^l_j$ 表示第 $l$ 层第 $j$ 个神经元的激活值。

在这里插入图片描述

因此第 $l$ 层第 $j$ 个神经元的激活值为：

$a^l_j=\sigma(\sum_kw^l_{jk}a^{l-1}_k+b^{l}_j)$

$a^l=\sigma(w^la^{l-1}+b^l)$

令 $z^l=w^la^{l-1}+b^l$ ， $a^l=\sigma(z^l)$ ， $z^l_j=\sum_kw^l_{jk}a^{l-1}_k+b^l_j$ 。

代价函数为：

$C=\frac{1}{2n}\sum_x||y(x)-a^L(x)||^2=\frac{1}{n}\sum_xC_x$

对于每个单独的训练样本， $C_x=\frac{1}{2}||y-a^L||^2$

神经网络为 $L$ 层，训练样本总是为 $n$ 。

反向传播实际上对单独的训练样本计算 $\partial C_x/\partial w$ 和 $\partial C_x/\partial b$ ，在所有训练样本上进行平均得到 $\partial C/\partial w$ 和 $\partial C/\partial b$ 。为简化表示，把 $C_x$ 写为 $C$ 。

反向传播的4个基本方程

反向传播要求的是偏导数 $\partial\ C/\partial\ w^l_{jk}$ 和 $\partial\ C/\partial\ b^l_{j}$ 。

定义中间变量 $\delta^l_j=\frac{\partial \ C}{\partial\ z^l_j}$ ，其使得代价函数发生 $\partial\ C/\partial\ z^l_j\Delta z^l_j$ 的变化。如果 $\partial\ C/\partial\ z^l_j$ 接近0，其就很难通过扰动带权输入 $z^l_j$ 来缩小代价，此时该神经元接近最优。 $\partial\ C/\partial\ z^l_j$ 可以看作神经元距离最优的误差，降低代价函数的能力。

输出层误差方程 $\delta^L$ :

$a_j^ L=\sigma(z_j^L)$

$\delta^L_j=\frac{\partial\ C}{\partial\ a^L_j}\sigma^{\prime}(z^L_j)$

如果使用二次代价函数，那么 $C=\frac{1}{2}\sum_j(y_j-a^L_j)^2$ ， $\partial\ C/\partial\ a^L_j=(a^L_j-y_j)$ 。

$\delta^L=\nabla_aC\odot \sigma^{\prime}(z^L)$ （逐元素相乘，BP1）

$\delta^L=(a^L-y)\odot \sigma^{\prime}(z^L)$ （二次函数损失函数）

误差反向传播递推公式，已知 $\delta^{l+1}$ ，求 $\delta^l$ ：

$z^{l+1}=w^{l+1}a^{l}+b^{l+1}$

$a^l=\sigma(z^l)$

$\frac{\partial\ z^{l+1}}{\partial\ z^l}=\frac{\partial\ z^{l+1}}{\partial\ a^l}\frac{\partial\ a^l}{\partial\ z^l}=(w^{l+1})^T\odot\sigma^{\prime}(z^l)$

$\begin{aligned}\delta^l&=\frac{\partial\ C}{\partial\ z^l}\\&=\frac{\partial\ z^{l+1}}{\partial\ z^l}\frac{\partial\ C}{\partial\ z^{l+1}}\\&=(w^{l+1})^T\odot\sigma^{\prime}(z^l)\delta^{l+1}\\&=((w^{l+1})^T\delta^{l+1})\odot\sigma^{\prime}(z^l)\end{aligned}$ （BP2）

直观解释：误差沿着神经网络反向传播， $w^{l+1}$ 的每一行是 $l + 1$ 层的每个神经元的权重，因此 $w^{l+1}$ 的每一列连接到第 $l$ 层的同一个神经元，所以 $(w^{l+1})^T\delta^{l+1}$ 就是反向传播到第 $l$ 层的误差（此时误差是相对第 $l$ 层的激活输出），再通过激活函数乘以 $\sigma^{\prime}(z^l)$ 得到了第 $l$ 层误差 $\delta^l$ （此时误差相对第 $l$ 层输出）。

代价函数相对偏置的变化率：

$z^l_j=\sum_kw^l_{jk}a^{l-1}_k+b^l_j$

$\begin{aligned}\frac{\partial\ C}{\partial\ b^l_j}&=\frac{\partial\ C}{\partial\ z^l_j}\frac{\partial\ z^l_j}{\partial\ b^l_j}\\&=\delta^l_j\end{aligned}$ （BP3）

$\frac{\partial\ C}{\partial\ b}=\delta$

代价函数相对权重的变化率：

$z^l_j=\sum_kw^l_{jk}a^{l-1}_k+b^l_j$

$\begin{aligned}\frac{\partial\ C}{\partial\ w^l_{jk}}&=\frac{\partial\ C}{\partial\ z^l_j}\frac{\partial\ z^l_j}{\partial\ w^l_{jk}}\\&=a^{l-1}_k\delta^l_j\end{aligned}$ （BP4）

$\frac{\partial\ C}{\partial\ w}=a_{in}\delta_{out}$ （权重对应的输入和误差相乘即为代价函数相对权重的变化率）

在这里插入图片描述

如果 $a_{in}$ 很小，那么 $\partial\ C/\partial\ w$ 的值也很小，意味着权重的学习缓慢，受梯度影响不大，即输入小激活值的神经元学习缓慢。

另外，注意到代价函数相对权重和偏置的变化率都和误差 $\delta$ 相关，而 $\delta^l$ 和 $\sigma^{\prime}(z^l)$ 相关，因此激活函数的导数影响权重学习，对应sigmoid函数，在 $\sigma(z^l)$ 接近0或1时， $\sigma^{\prime}(z^l)\approx0$ ，出现梯度消失（或者说神经元已经饱和，无法再学到新东西）。因此，可以尝试修改激活函数，使得 $\sigma^{\prime}$ 恒为正且不会趋近于0，保持神经元的学习能力。