机器学习西瓜书精讲 - 第五章：5.3 误差逆传播算法（BP算法）

夏驰和徐策

已于 2025-04-21 13:57:47 修改

阅读量783

点赞数 24

分类专栏：程序猿之机器学习文章标签：机器学习算法人工智能

于 2025-04-21 13:41:10 首次发布

本文链接：https://blog.csdn.net/tang7mj/article/details/147388118

版权

程序猿之机器学习专栏收录该内容

25 篇文章

订阅专栏

📘 西瓜书笔记 - 5.3 误差逆传播算法（BP算法）

多层神经网络的强大不仅体现在它能拟合更复杂的函数关系，还体现在其训练方法的数学美感与实用价值，而这一切的核心，就是 误差逆传播算法（BackPropagation，简称BP）。

🔍 什么是误差逆传播算法？

相比单层感知机，多层前馈神经网络（如图5.6(b)所示）具有更强的表达能力。但也因此，感知机的简单学习规则（如公式5.1）已无法胜任。BP算法应运而生，其本质是一种基于梯度下降法的链式求导机制，通过计算输出误差的梯度反向传播到各层神经元，进而更新网络参数。

BP算法是当前神经网络最成功、应用最广泛的训练算法之一，也可用于递归神经网络等复杂结构的训练。

📐 算法结构与符号说明

参考图 5.7，假设有如下结构的三层前馈神经网络：

输入层维度为 dd
隐藏层神经元数量为 qq
输出层神经元数量为 ll

连接权重与符号如下：

输入层到隐藏层：权重为 vihv_{ih}，输入为 xix_i，隐层第 hh 个神经元输入为：
隐藏层到输出层：权重为 whjw_{hj}，输出层第 jj 个神经元输入为：

其中 bhb_h 为第 hh 个隐层神经元的输出，通常通过 sigmoid 激活函数：

🎯 目标函数：最小化均方误差

对于每个训练样本 (xk,yk)(\boldsymbol{x}_k, \boldsymbol{y}_k)，其误差定义为：

🔁 反向传播与梯度推导

输出层梯度项：

由链式法则推导得：

其中：

类似地可得：

隐藏层梯度项：

定义误差传播项：

🔁 算法流程（标准BP算法）

图 5.8 总结了 BP 的训练流程：

输入：训练集 D = { (x_k, y_k) }，学习率 η

1. 在 (0,1) 范围内初始化权值与阈值
2. repeat
    3. for 每个训练样本 (x_k, y_k):
        4. 前向传播，计算输出 \hat{y}_k
        5. 计算输出层误差项 g_j
        6. 反向传播误差到隐层，得到 e_h
        7. 更新权值 w_{hj}, v_{ih} 和阈值 θ_j, γ_h
8. until 停止条件满足

目标是最小化整体累积误差：