13.前向传播和反向传播

哈哈拉拉hxl

于 2024-05-22 12:00:00 发布

阅读量746

点赞数 7

文章标签：人工智能 python 机器学习

本文链接：https://blog.csdn.net/qq_41238579/article/details/139067186

版权

我们将探讨神经网络中信息的流动方式，即前向传播和反向传播。

前向传播（Forward Propagation）

前向传播是神经网络中信息从输入层流向输出层的过程。输入数据经过线性组合（加权求和）和激活函数的非线性变换，在隐藏层之间反复迭代，直到产生最终的输出。这种网络结构通常被称为深度前馈网络（Deep Feedforward Network）或前馈神经网络（Feedforward Neural Network）。多层感知机（MLP）是其中的典型模型。

反向传播（Backpropagation）

在神经网络的训练过程中，我们使用损失函数来衡量预测结果与真实结果之间的差距。为了减小这个差距，我们需要找到一种方法来有效地更新网络的权重和偏置（即模型参数）。反向传播算法就是用来实现这一目标的。

反向传播算法本质上是一种计算神经网络每一层梯度（偏导数）的方法。它利用链式法则，从输出层的损失函数开始，逐层向前计算各个神经元权重和偏置的偏导数。这些偏导数构成了损失函数对权重和偏置向量的梯度，作为修改模型参数的依据。

在深度学习中，反向传播算法和梯度下降法是训练神经网络模型的两个核心步骤。反向传播算法用于计算损失函数对模型参数的梯度，而梯度下降法则利用这些梯度来更新模型参数，以最小化损失函数。常见的梯度下降法有批量梯度下降、随机梯度下降和小批量梯度下降等。

反向传播过程详解

以两层神经元为例，我们来详细说明反向传播的过程。首先，我们需要定义损失函数，比如均方误差（MSE）。然后，我们计算输出层神经元的误差（即预测值与真实值之间的差距），并将这个误差反向传播到隐藏层。在隐藏层，我们根据链式法则计算每个神经元权重和偏置的梯度，并使用这些梯度来更新模型参数。这个过程会重复进行，直到满足停止条件（如达到最大迭代次数或损失函数值小于某个阈值）。

下面我将用数学公式来展示反向传播的基本原理。

$首先，我们假设一个简单的神经网络模型，它只包含一个隐藏层和一个输出层。对于隐藏层，我们有输入X、权重W1、偏置b1和激活函数f1；对于输出层，我们有隐藏层的输出Y1（也是输出层的输入）、权重W2、偏置b2和激活函数f2（对于输出层，有时我们直接使用恒等函数或softmax函数等作为激活函数）。$

前向传播

隐藏层输出：
$Y1 = f1(W1 \cdot X + b1)$
输出层输出（即模型的预测结果）：
$\hat{Y} = f2(W2 \cdot Y1 + b2)$

计算损失

假设我们使用均方误差作为损失函数，真实标签为Y，则损失函数为：
$Loss = \frac{1}{2} (\hat{Y} - Y)^2$

反向传播

我们的目标是计算损失函数对权重和偏置的偏导数，以便使用梯度下降等优化算法来更新这些参数。

计算损失对输出层权重的偏导数：
$\frac{\partial Loss}{\partial W2} = (\hat{Y} - Y) \cdot f2'(W2 \cdot Y1 + b2) \cdot Y1^T$
这里，f2'是输出层激活函数的导数，Y1^T是Y1的转置。
计算损失对输出层偏置的偏导数：
$\frac{\partial Loss}{\partial b2} = (\hat{Y} - Y) \cdot f2'(W2 \cdot Y1 + b2)$
计算损失对隐藏层输出的偏导数（也称为误差项）：
$\delta_2 = (\hat{Y} - Y) \cdot f2'(W2 \cdot Y1 + b2) \cdot W2^T$
这里，W2^T是W2的转置。
计算损失对隐藏层权重的偏导数：
$\frac{\partial Loss}{\partial W1} = \delta_2 \cdot f1'(W1 \cdot X + b1) \cdot X^T$
计算损失对隐藏层偏置的偏导数：
$\frac{\partial Loss}{\partial b1} = \delta_2 \cdot f1'(W1 \cdot X + b1)$

在得到这些偏导数后，我们就可以使用梯度下降等优化算法来更新权重和偏置，从而优化模型的性能。

请注意，以上公式是基于一个简单的两层神经网络模型的，对于更复杂的网络结构（如多层感知机、卷积神经网络等），反向传播的计算过程会更为复杂，但基本原理是相同的。

生活举例

假设我们有三个人在玩“你画我猜”的游戏，第一个人向第二个人描述一幅画，然后第二个人再向第三个人描述，最后由第三个人猜出画的内容。

前向传播：
- 第一个人（输入层）向第二个人（隐藏层）描述画的内容。
- 第二个人理解后，再向第三个人（输出层）描述。
- 第三个人根据第二个人的描述猜出画的内容（输出结果）。
计算损失：
- 假设第三个人猜的内容与真实答案有差距，我们计算这个差距（损失函数值）。
反向传播：
- 第三个人发现自己猜错了，于是他告诉第二个人：“我猜的和真实答案有差距，你在描述时可能哪里说得不太清楚。”
- 第二个人听了第三个人的反馈后，反思自己的描述，然后告诉第一个人：“我在描述时可能有些模糊，下次我们可以这样描述更清楚一些。”
- 第一个人听了第二个人的反馈后，也对自己的描述进行了调整。
参数更新：
- 在这个过程中，每个人都在调整自己的描述方式（更新参数），以便下一次能更好地传递信息。