深度学习：完全理解反向传播算法（一）-CSDN博客

本文链接：https://blog.csdn.net/qq_36803941/article/details/136191848

文章目录

1. 前言
2. 神经网络的结构
3. 反向传播的四个基本方程
4. 参考

1. 前言

1986年，由 David E. Rumelhart, Geoffrey E. Hinton, 和 Ronald J. Williams 共同撰写论文《Learning representations by back-propagating errors》，并发表于《Nature》杂志上。这篇论文是深度学习领域中的里程碑之作，它详细介绍了反向传播算法（Backpropagation）的原理和应用。

反向传播（Backpropagation）是训练人工神经网络中广泛使用的一种算法，主要用于计算和更新模型参数以最小化预测输出与实际目标之间的损失函数。在深度学习框架下，神经网络由多层组成，每一层包含多个节点（或称为神经元）。在前向传播阶段，输入数据通过一系列非线性变换在网络中逐层传递，并最终生成一个预测输出。

当网络给出预测后，我们需要根据预测值与实际标签的差异来调整网络中的权重和偏置，以便模型在未来能够更准确地进行预测。这个调整过程就是通过反向传播算法实现的：

误差计算：首先，计算模型在当前迭代中的预测输出与真实目标之间的差距，这通常转化为对损失函数（如交叉熵、均方误差等）的计算。

梯度计算：使用链式法则从输出层开始，按相反的顺序逐层计算每个中间变量和参数对于总损失函数的梯度。也就是说，计算损失相对于网络中每层权重和偏置的导数。

参数更新：根据计算出的梯度，利用优化算法（如梯度下降法、动量法、Adam等）来更新网络的权重和偏置。更新的方向与梯度方向相反，目的是减少损失函数的值。

简单来说，反向传播的核心原理是将误差从输出层沿着网络层层往回传播，并根据传播回来的误差信号调整各层的权重，使得整个网络对输入数据的学习能力逐步提高。这一过程在每次迭代训练中反复进行，直到模型收敛或者达到预定的训练轮数为止。

以上这些概述相信大家都已经耳熟能详了，知其然更要知其所以然，本文结合《How the backpropagation algorithm works》这篇剖析反向传播算法的好文章，讲解其中的来龙去脉，其中有很多数学计算推导，强烈建议拿出纸和笔跟着文章一起算算，相信会有收获！

2. 神经网络的结构

假设一共有 $L$ 层网络，激活函数为 $\sigma$ ， $z_j^l$ 表示未激活之前的状态， $a_j^l$ 表示激活之后的状态。
在这里插入图片描述

损失函数：
$\frac{1}{2} ||y - a^L||^2 =\frac{1}{2}\sum_{k=1}^{K}(y_k-a_k^L)^2$

损失函数对 $a_j^L$ 的偏导数：
$\frac {\partial C} {\partial a_j^L} = a_j^L - y_j$
这里建议暂停一下，先找纸笔，把图中的结构自己画一画，把上面公式推导一遍，尤其是理解下标 j、k 是什么含义，这样理解更深～

那么我们要达到什么目标呢？比如某次计算的损失函数误差依然很大，那么需要将误差从输出层沿着网络层层往回传播，并根据传播回来的误差信号调整各层的权重 $\omega$ 及偏置 $b$ ，逐步调整直到最终的输出误差满足要求！

这其实就是论文《Learning representations by back-propagating errors》的思想，我们需要计算损失函数 $C$ 对 $\omega$ 及偏置 $b$ 的偏导数，即 $\partial C/\partial \omega_{jk}^l$ 以及 $\partial C/\partial b_{j}^l$ 。如果对导数的含义清楚的话，应该就知道，导数表达的是变化情况，即表示 $\omega$ 及 $b$ 对最终的误差的影响，如果误差大了，我们可以通过反方向改变 $\omega$ 及 $b$ ，使得误差降低。

一个神经网络涉及到很多的参数 $\omega$ 及 $b$ ，所以对于大模型，参数达到 10B、100B（B表示十亿）甚至更多，那么训练起来自然会很慢，这个是后话了。

3. 反向传播的四个基本方程

在读下面的内容之前，一定要把上面的过程推导理解一遍。

我们希望能计算出任意的 $\partial C/\partial \omega_{jk}^l$ 以及 $\partial C/\partial b_{j}^l$ ，由于涉及到激活函数，有 $a_j^l = \sigma(z_j^l)$ 这一层关系，我们先定义一个中间变量 $\delta_j^l$ ：
$\delta_j^l ≡ \frac {\partial C} {\partial z_j^l}$
你可能会问，为什么不直接计算 $\partial C/\partial a_{jk}^l$ ，这个不必太纠结，定义这个是为了简化后面的计算，接着看后面的计算过程。

3.1 方程式1

最后一层（输出层），即 L 层，我们来计算对应的 $\delta_j^L$ ：
$\delta_j^L = \frac {\partial C} {\partial z_j^L} = \frac {\partial C} {\partial a_j^L} \frac {\partial a_j^L} {\partial z_j^L} = \frac {\partial C} {\partial a_j^L} \sigma'(z_j^L) = (a_j^L - y_j)\sigma'(z_j^L)$

我们推广一下 $\delta_j^L$ 到 $\delta^L$ ，即取 j=1到K：
$\delta^L = \begin{bmatrix} \frac {\partial C} {\partial a_1^L} \sigma'(z_1^L) \\ \frac {\partial C} {\partial a_2^L} \sigma'(z_2^L) \\ ...\\ \frac {\partial C} {\partial a_K^L} \sigma'(z_K^L) \end{bmatrix} =\begin{bmatrix} \frac {\partial C} {\partial a_1^L} \\ \frac {\partial C} {\partial a_2^L} \\ ...\\ \frac {\partial C} {\partial a_K^L} \end{bmatrix} \odot \begin{bmatrix} \sigma'(z_1^L) \\ \sigma'(z_2^L) \\ ...\\ \sigma'(z_K^L) \end{bmatrix} = \nabla_aC \odot \sigma'(z^L)$

3.2 方程式2

那么接下来继续计算对于 L-1 层：
$\delta_j^{L-1} = \frac {\partial C} {\partial z_j^{L-1}} = \frac {\partial C} {\partial a_j^{L-1}} \frac {\partial a_j^{L-1}} {\partial z_j^{L-1}} = \frac {\partial C} {\partial a_j^{L-1}} \sigma'(z_j^{L-1})$
相信到这里，大家都没有问题，那么 $\frac {\partial C} {\partial a_j^{L-1}}$ 如何计算呢？我们先来看下面这张图，假设我们需要计算 $\frac {\partial C} {\partial a_1^{L-1}}$ ，那么可以看到红色路径都是对会最终结果的影响，也就是说我们把 C 看出是 $z_{1}^{L} z_{2}^{L},...,z_{K}^{L})$ 的函数，那么：
$\frac {\partial C} {\partial a_1^{L-1}} = \frac {\partial C(z_{1}^{L} z_{2}^{L},...,z_{K}^{L})} {\partial a_1^{L-1}} = \frac {\partial C} {\partial z_1^{L}} \frac {\partial z_1^L} {\partial a_1^{L-1}} + ...+ \frac {\partial C} {\partial z_K^{L}} \frac {\partial z_K^L} {\partial a_1^{L-1}} = \sum_{k=1}^K \frac {\partial C} {\partial z_k^{L}} \frac {\partial z_k^L} {\partial a_1^{L-1}}$
在这里插入图片描述
根据第二章：
$\frac {\partial z_k^L} {\partial a_1^{L-1}} = \omega_{k1}^L$
同时根据定义：
$\frac {\partial C} {\partial z_k^{L}} = \delta_k^L$
代入得到：
$\frac {\partial C} {\partial a_1^{L-1}} = \sum_{k=1}^K \frac {\partial C} {\partial z_k^{L}} \frac {\partial z_k^L} {\partial a_1^{L-1}} = \sum_{k=1}^K \omega_{k1}^L \delta_k^L$
同理，对于其他：
$\frac {\partial C} {\partial a_j^{L-1}} = \sum_{k=1}^K \omega_{kj}^L \delta_k^L$
还记得我们要计算 $\delta_j^{L-1}$ 吗，直接代入得到：
$\delta_j^{L-1} = \frac {\partial C} {\partial a_j^{L-1}} \sigma'(z_j^{L-1}) = (\sum_{k=1}^K \omega_{kj}^L \delta_k^L) * \sigma'(z_j^{L-1})$
好了，那么对于任意 j 层，则有：
$\delta_j^{l} = \frac {\partial C} {\partial a_j^{l}} \sigma'(z_j^{l}) = (\sum_{k=1}^K \omega_{kj}^{l+1} \delta_k^{l+1}) * \sigma'(z_j^{l})$

同样的，我们推广一下 $\delta_j^l$ 到 $\delta^l$ ，即取 j=1到K：
$\delta_j^{l} = \begin{bmatrix} (\sum_{k=1}^K \omega_{k1}^{l+1} \delta_k^{l+1}) \sigma'(z_1^l) \\ (\sum_{k=1}^K \omega_{k2}^{l+1} \delta_k^{l+1}) \sigma'(z_2^l) \\ ...\\ (\sum_{k=1}^K \omega_{kK}^{l+1} \delta_k^{l+1}) \sigma'(z_K^l) \end{bmatrix} = ((\omega^{l+1})^T\delta^{l+1}) \odot \sigma'(z^l)$

3.3 方程式3

$\frac {\partial C}{\partial b_j^l} = \frac {\partial C}{\partial z_j^l} \frac {\partial z_j^l}{\partial b_j^l} = \frac {\partial C}{\partial z_j^l} = \delta_j^l$

ps: 在第二章有 $z_j^l = \sum_{k-1}^K \omega_{jk}^la_k^{l-1} + b_j^l$

3.4 方程式4

$\frac {\partial C}{\partial \omega_{jk}^l} = \frac {\partial C}{\partial z_j^l} \frac {\partial z_j^l}{\partial \omega_{jk}^l} = \delta_j^l a_k^{l-1}$

3.5 总结

方向传播是为了根据输出误差 C 来调整参数，涉及反向传播的四个基本方程式：
$\delta^L = \nabla_aC \odot \sigma'(z^L)$
$\delta_j^{l} = ((\omega^{l+1})^T\delta^{l+1}) \odot \sigma'(z^l)$
$\frac {\partial C}{\partial b_j^l} = \delta_j^l$
$\frac {\partial C}{\partial \omega_{jk}^l} = \delta_j^l a_k^{l-1}$