什么是反向传播

正义的彬彬侠

于 2024-10-11 22:50:17 发布

阅读量415

点赞数 10

分类专栏：机器学习深度学习文章标签：机器学习算法反向传播神经网络深度学习人工智能

本文链接：https://blog.csdn.net/u013172930/article/details/142865030

版权

75 篇文章 2 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

反向传播（Backpropagation）是训练神经网络的核心算法之一。它用于计算神经网络中各个权重的梯度，从而通过梯度下降等优化方法更新权重，使得神经网络的损失函数最小化。反向传播的核心思想是应用链式法则，从输出层向输入层反向传播误差，逐层计算权重的梯度。

在反向传播之前，首先是前向传播（Forward Propagation），这是模型计算输出的过程。给定输入数据，神经网络从输入层开始，逐层通过各个神经元的权重和激活函数，将信息传递到输出层。这个过程的最终输出是模型的预测值。

损失函数（Loss Function）用于衡量神经网络的预测值与真实值之间的误差。常见的损失函数包括均方误差（MSE）和交叉熵损失（Cross-Entropy Loss）。损失函数的输出值告诉我们模型的预测有多好，反向传播的目标是通过调整网络中的权重，使得这个误差最小化。

反向传播的目标是计算损失函数对每个权重的梯度。有了这些梯度之后，我们可以使用梯度下降等优化算法，更新权重，使得损失函数最小化，从而提高模型的预测性能。

反向传播的基本工作机制是利用链式法则，逐层计算神经网络中每个权重对损失函数的影响，具体包括以下几个步骤：

例如，在输出层的神经元上，损失函数 $L$ 对某个神经元输出 $a^{(L)}$ 的导数（假设是均方误差）可以写为：
$\frac{\partial L}{\partial a^{(L)}} = a^{(L)} - y$

其中 $y$ 是实际标签， $a^{(L)}$ 是预测值。

根据计算得到的每层误差，计算每个权重对损失函数的梯度。
每个权重的梯度可以表示为：
$\frac{\partial L}{\partial W^{(l)}} = \delta^{(l)} \cdot (a^{(l-1)})^T$
其中 $a^{(l-1)}$ 是第 $l - 1$ 层的激活值。

一旦计算得到了每个权重的梯度，就可以使用优化算法（如梯度下降）更新神经网络的权重。更新公式为：
$W^{(l)} = W^{(l)} - \eta \cdot \frac{\partial L}{\partial W^{(l)}}$

其中 $\eta$ 是学习率，表示每次更新时步长的大小。

假设我们有一个简单的三层神经网络：输入层、一个隐藏层和一个输出层。

首先计算输出层的梯度，即损失函数对输出层激活值 $\hat{y}$ 的导数：
$\frac{\partial L}{\partial \hat{y}} = \hat{y} - y$
然后，将这个梯度通过链式法则传播到隐藏层，逐层计算每个权重的梯度。
例如，对于隐藏层神经元 $h_1$ 和 $h_2$ ，我们计算它们的梯度，基于它们对损失的贡献。