后向传播基本原理和步骤

百年孤独百年

已于 2023-05-01 09:56:12 修改

阅读量2.5k

点赞数 3

分类专栏：深度学习入门文章标签：机器学习深度学习神经网络后向传播

于 2023-04-19 13:36:21 首次发布

本文链接：https://blog.csdn.net/qq_36693723/article/details/130241869

版权

深度学习入门专栏收录该内容

45 篇文章

订阅专栏

后向传播是神经网络训练的关键步骤，它涉及计算输出层及隐藏层的误差信号，通过链式法则求得权重和偏置的偏导数，然后使用梯度下降法更新参数，优化模型性能。这一过程包括计算输出层误差、传递误差信号、计算隐藏层误差、以及更新网络权重和偏置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

后向传播（Backpropagation）

后向传播（Backpropagation）

后向传播是什么？

在神经网络中，后向传播是指通过比较输出结果和真实标签，计算损失函数对每个权重和偏置的偏导数，并将其传递回网络中的每一层，从而更新权重和偏置的过程。通过反向传播误差信号来优化模型参数，使得模型的预测结果更加准确。

掌握后向传播的基本原理和步骤，对于理解神经网络的训练过程具有重要的意义。

后向传播步骤

后向传播的步骤可以简单地概括为以下几步：

计算输出层的误差信号
传递误差信号到隐藏层
计算隐藏层的误差信号
计算权重和偏置的偏导数
更新权重和偏置

1. 计算输出层的误差信号

假设我们的神经网络有 $K$ 个输出节点，用 $y_k$ 表示第 $k$ 个输出节点的输出值， $t_k$ 表示第 $k$ 个输出节点的真实值，则损失函数可以表示为：

$L=\frac{1}{2}\sum_{k=1}^K(y_k-t_k)^2$

损失函数中除以2是为了方便计算导数。在实际应用中，我们往往使用梯度下降等基于梯度的方法最小化损失函数。对该损失函数求导数得到的结果中会有一个常数因子2，如果不在损失函数中除以2，会导致在梯度下降的过程中，每一次更新参数的步长过大，可能无法找到全局最优解。因此在实际应用中，将损失函数除以2后，可以避免过大的参数更新，从而更稳定地达到全局最优解。

我们需要计算每个输出节点的误差信号，即 $\frac{\partial L}{\partial y_k}$ 。根据链式法则，可以得到：

$\frac{\partial L}{\partial y_k}=(y_k-t_k)\cdot\sigma'(z_k)$

其中， $z_k$ 表示第 $k$ 个输出节点的带权输入， $\sigma'$ 表示激活函数的导数。

$K$ ：输出节点的数量
$y_k$ ：第 $k$ 个输出节点的输出值
$t_k$ ：第 $k$ 个输出节点的真实值
$L$ ：损失函数
$\frac{\partial L}{\partial y_k}$ ：第 $k$ 个输出节点的误差信号
$\sigma(z_k)$ ：第 $k$ 个输出节点的激活函数
$\sigma'(z_k)$ ：第 $k$ 个输出节点激活函数的导数
$z_k$ ：第 $k$ 个输出节点的带权输入

其中，误差信号 $\frac{\partial L}{\partial y_k}$ 表示损失函数 $L$ 对第 $k$ 个输出节点输出值 $y_k$ 的偏导数，可以通过链式法则和输出节点的误差项来计算。误差项包括输入加权和 $z_k$ 的导数（即激活函数的导数）和输出误差 $y_k-t_k)$ 。

2. 传递误差信号到隐藏层

对于隐藏层的每个节点 $j$ ，我们需要计算其误差信号 $\frac{\partial L}{\partial z_j}$ 。根据链式法则，可以得到：

$\frac{\partial L}{\partial z_j}=\sum_{k=1}^K\frac{\partial L}{\partial y_k}\cdot\frac{\partial y_k}{\partial z_j}$

其中， $\frac{\partial y_k}{\partial z_j}$ 可以表示为：

$\frac{\partial y_k}{\partial z_j}=\frac{\partial}{\partial z_j}\sigma(z_k\cdot w_{kj}+b_k)=\sigma'(z_j)\cdot w_{kj}$

$\frac{\partial L}{\partial z_j}$ ：表示误差信号，即损失函数 $L$ 对隐藏层第 $j$ 个神经元的加权输入 $z_j$ 的偏导数；
$K$ ：表示输出层的神经元个数；
$\frac{\partial L}{\partial y_k}$ ：表示损失函数 $L$ 对输出层第 $k$ 个神经元的输出值 $y_k$ 的偏导数；
$\frac{\partial y_k}{\partial z_j}$ ：表示输出层第 $k$ 个神经元的输出值 $y_k$ 对隐藏层第 $j$ 个神经元的加权输入 $z_j$ 的偏导数；
$w_{kj}$ ：表示输出层连接到隐藏层第 $j$ 个神经元的权重；
$b_k$ ：表示输出层第 $k$ 个神经元的偏置；
$\sigma$ ：表示激活函数；
$\sigma'(z_j)$ ：表示激活函数在 $z_j$ 处的导数。

3. 计算隐藏层的误差信号

对于隐藏层的每个节点 $j$ ，我们还需要计算其误差信号 $\frac{\partial L}{\partial a_j}$ ，其中 $a_j$ 表示第 $j$ 个隐藏节点的输出值。根据链式法则，可以得到：

$\frac{\partial L}{\partial a_j}=\frac{\partial L}{\partial z_j}\cdot\frac{\partial z_j}{\partial a_j}$

其中，

$\frac{\partial z_j}{\partial a_j}=\frac{\partial}{\partial a_j}\sum_{i=1}^m w_{ji}\cdot x_i=b_j$

$L$ ：损失函数
$a_j$ ：第 $j$ 个隐藏节点的输出值
$z_j$ ：第 $j$ 个隐藏节点的加权输入
$w_{ji}$ ：连接输入层第 $i$ 个节点和隐藏层第 $j$ 个节点的权重
$x_i$ ：输入样本的第 $i$ 个分量
$b_j$ ：第 $j$ 个隐藏节点的偏置
$\frac{\partial L}{\partial a_j}$ ：损失函数 $L$ 对第 $j$ 个隐藏节点输出值 $a_j$ 的偏导数，即第 $j$ 个隐藏节点的误差信号
$\frac{\partial L}{\partial z_j}$ ：损失函数 $L$ 对第 $j$ 个隐藏节点加权输入 $z_j$ 的偏导数
$\frac{\partial z_j}{\partial a_j}$ ：第 $j$ 个隐藏节点的加权输入 $z_j$ 对输出值 $a_j$ 的偏导数

4. 计算权重和偏置的偏导数

对于输出层的权重和偏置，偏导数可以使用链式法则计算：
$\frac{\partial L}{\partial w_{ki}}=\frac{\partial L}{\partial y_k}\cdot\frac{\partial y_k}{\partial z_k}\cdot\frac{\partial z_k}{\partial w_{kj}}=y_i\cdot(y_k - t_k)\cdot\sigma'(z_k)$

$\frac{\partial L}{\partial b_k}=\frac{\partial L}{\partial y_k}\cdot\frac{\partial y_k}{\partial z_k}\cdot\frac{\partial z_k}{\partial b_k}=(y_k - t_k)\cdot\sigma'(z_k)$

对于隐藏层的权重和偏置，偏导数可以使用相似的方式进行计算：
$\frac{\partial L}{\partial w_{ji}}=\frac{\partial L}{\partial z_j}\cdot\frac{\partial z_j}{\partial w_{ji}}=x_i\cdot\frac{\partial L}{\partial z_j}$

$\frac{\partial L}{\partial b_j}=\frac{\partial L}{\partial z_j}\cdot\frac{\partial z_j}{\partial b_j}=\frac{\partial L}{\partial z_j}$

$L$ ：损失函数
$y_k$ ：输出层第 $k$ 个节点的输出值
$t_k$ ：对于当前输入样本，输出层第 $k$ 个节点应该输出的目标值
$z_k$ ：输出层第 $k$ 个节点的加权输入
$\sigma(z_k)$ ：激活函数，将加权输入 $z_k$ 映射为输出值 $y_k$ 的非线性函数
$\sigma'(z_k)$ ：激活函数的导数，即 $\sigma(z)$ 对 $z$ 的偏导数
$w_{kj}$ ：连接隐藏层第 $j$ 个节点和输出层第 $k$ 个节点的权重
$x_i$ ：输入样本的第 $i$ 个分量
$w_{ji}$ ：连接输入层第 $i$ 个节点和隐藏层第 $j$ 个节点的权重
$a_j$ ：第 $j$ 个隐藏节点的输出值
$z_j$ ：第 $j$ 个隐藏节点的加权输入
$b_j$ ：第 $j$ 个隐藏节点的偏置
$b_k$ ：输出层第k个节点的偏置
$k$ ：输出层节点的索引
$j$ ：隐藏层节点的索引
$i$ ：输入层节点的索引
$\frac{\partial L}{\partial w_{ki}}$ ：损失函数 $L$ 对连接隐藏层第 $i$ 个节点和输出层第 $k$ 个节点的权重 $w_{ki}$ 的偏导数
$\frac{\partial L}{\partial b_k}$ ：损失函数 $L$ 对输出层第 $k$ 个节点的偏置 $b_k$ 的偏导数
$\frac{\partial L}{\partial w_{ji}}$ ：损失函数 $L$ 对连接输入层第 $i$ 个节点和隐藏层第 $j$ 个节点的权重 $w_{ji}$ 的偏导数
$\frac{\partial L}{\partial b_j}$ ：损失函数 $L$ 对隐藏层第 $j$ 个节点的偏置 $b_j$ 的偏导数

5.更新权重和偏置

最后，根据梯度下降法，我们可以使用下面的公式来更新权重和偏置：
$w_{kj} \leftarrow w_{kj}-\eta\frac{\partial L}{\partial w_{kj}}$

$b_k \leftarrow b_k-\eta\frac{\partial L}{\partial b_k}$

$w_{ji} \leftarrow w_{ji}-\eta\frac{\partial L}{\partial w_{ji}}$

$b_j \leftarrow b_j-\eta\frac{\partial L}{\partial b_j}$

其中 $\eta$ 是学习率，控制每次更新的步长。

$L$ ：损失函数
$\eta$ ：学习率，控制梯度下降更新权重的步长大小
$\frac{\partial L}{\partial w_{kj}}$ ：损失函数 $L$ 对连接隐藏层第 $j$ 个节点和输出层第 $k$ 个节点的权重 $w_{kj}$ 的偏导数
$w_{kj}$ ：连接隐藏层第 $j$ 个节点和输出层第 $k$ 个节点的权重
$\frac{\partial L}{\partial b_k}$ ：损失函数 $L$ 对输出层第 $k$ 个节点的偏置 $b_k$ 的偏导数
$b_k$ ：输出层第 $k$ 个节点的偏置
$\frac{\partial L}{\partial w_{ji}}$ ：损失函数 $L$ 对连接输入层第 $i$ 个节点和隐藏层第 $j$ 个节点的权重 $w_{ji}$ 的偏导数
$w_{ji}$ ：连接输入层第 $i$ 个节点和隐藏层第 $j$ 个节点的权重
$\frac{\partial L}{\partial b_j}$ ：损失函数 $L$ 对隐藏层第 $j$ 个节点的偏置 $b_j$ 的偏导数
$b_j$ ：隐藏层第 $j$ 个节点的偏置
$\leftarrow$ ：数学符号，表示赋值操作，将等号左侧的值赋给等号右侧的变量

总结

这份后向传播的入门教程主要包括以下内容：

后向传播的目的是通过反向传播误差信号来优化神经网络的参数。
后向传播的第一步是计算输出层的误差信号，具体计算方法是使用损失函数的导数，结合输出层的激活函数的导数。
后向传播的第二步是传递误差信号，将误差信号沿着神经网络的反向传播，计算每一层的误差信号，具体计算方法是使用权重矩阵的转置，结合下一层的误差信号和当前层的激活函数的导数。
通过计算每一层的误差信号，我们可以使用梯度下降等优化算法来更新神经网络的参数，以减小误差信号，提高模型的准确性。

当然，这只是后向传播的基础，实际应用中还需要考虑很多细节和优化方法，例如使用批量归一化、随机失活等技巧来提高模型的泛化能力，使用动量优化器、自适应学习率等方法来优化参数更新过程，等等。