手把手带你彻底弄懂BP神经网络

劭清

已于 2025-04-23 10:07:51 修改

阅读量1.4k

点赞数 31

分类专栏：深度学习文章标签：神经网络人工智能深度学习

于 2025-04-23 09:51:33 首次发布

本文链接：https://blog.csdn.net/m0_69458012/article/details/147403022

版权

深度学习专栏收录该内容

8 篇文章

订阅专栏

一、从神经元到神经网络：理解智能的"积木"

1.1 生物神经元的启示

想象大脑中的神经细胞：当接收到足够强的信号时，它就会"激活"并把信号传给下一个细胞。人工神经元正是模拟这个过程：

树突 → 输入信号（x₁, x₂…xₙ）
细胞体 → 计算加权和（Σwᵢxᵢ + b）
轴突 → 激活函数处理（如Sigmoid）
突触 → 连接权重（w₁, w₂…wₙ）

1.2 单个人工神经元的数学模型

一个神经元就像自动售货机：投入多个硬币（输入），根据金额（权重）总和决定是否出货（激活）
人工神经元

数学表达式：
$f(\sum_{i=1}^{n} w_i x_i + b)$
其中：

$w_i$ ：每个输入的权重（重要程度）
$b$ ：偏置（调节激活难易度）
$f$ ：激活函数（如Sigmoid）

二、组装神经元：构建三层神经网络

2.1 网络结构解析（以三层网络为例）

层级	作用	类比
输入层	接收原始数据（如图像像素值）	工厂的原料入口
隐藏层	特征提取与转换（通常有多层）	车间的加工流水线
输出层	生成最终结果（如分类概率）	成品出口区

多层神经网络结构图

2.2 各层之间的连接奥秘

全连接：每个神经元与下一层所有神经元相连
权重矩阵：层间连接的强度参数（网络要学习的核心）

示例：输入层2节点 → 隐藏层3节点 → 输出层1节点

输入→隐藏权重矩阵：2×3
隐藏→输出权重矩阵：3×1

三、神经网络是如何学习的？——前向传播与反向传播

3.1 前向传播（Forward Propagation）

数据像流水线一样被逐层加工：

前向传播

具体步骤：

输入层接收数据（如[0.2, 0.8]）
计算隐藏层输入： $z^{(1)} = W^{(1)}X + b^{(1)}$
隐藏层输出： $a^{(1)} = f(z^{(1)})$ （如使用Sigmoid）
计算输出层输入： $z^{(2)} = W^{(2)}a^{(1)} + b^{(2)}$
最终输出： $a^{(2)} = f(z^{(2)})$

3.2 损失函数——衡量"错误程度"的尺子

常用均方误差（MSE）：
$\frac{1}{2N}\sum_{i=1}^{N}(t_i - y_i)^2$

$t_i$ ：真实值（老师给的答案）
$y_i$ ：预测值（学生写的答案）
$N$ ：样本数量

3.3 反向传播（Back Propagation）——误差溯源之旅

核心思想：链式法则

就像找出生产线上的责任环节，反向追溯误差来源：

计算输出层误差：
$\delta^{(2)} = (t - y) \cdot f'(z^{(2)})$
其中 $f^{'}$ 是激活函数的导数
计算隐藏层误差：
$\delta^{(1)} = (W^{(2)})^T \delta^{(2)} \cdot f'(z^{(1)})$
更新权重参数（梯度下降）：
$W^{(2)} := W^{(2)} - \eta \cdot \delta^{(2)} \cdot a^{(1)}$
$W^{(1)} := W^{(1)} - \eta \cdot \delta^{(1)} \cdot X$
- $\eta$ ：学习率（控制调整步长）

3.4 参数更新可视化理解

梯度下降

想象在山顶蒙眼下山：

用脚试探周围坡度（计算梯度）
沿着最陡的下坡方向迈步（负梯度方向）
步长由学习率控制
重复直到到达谷底（损失最小）

四、深入理解三个关键机制

4.1 激活函数的作用

引入非线性：没有激活函数，神经网络只能学习线性关系
常见激活函数对比：

函数名称	公式	特性
Sigmoid	$1/(1+e^{-x})$	输出(0,1)，易梯度消失
ReLU	$ma x (0, x)$	计算简单，缓解梯度消失
Tanh	$e^x - e^{-x})/(e^x + e^{-x})$	输出(-1,1)，中心对称

sigmoid函数图像
ReLU函数图像
YTanh函数图像

4.2 梯度下降的三种"步伐"

类型	数据使用方式	特点
批量梯度下降	全部训练数据	稳定但计算量大
随机梯度下降	单个样本	波动大，可能跳出局部最优
小批量梯度下降	部分样本（如32/64个）	平衡速度与稳定性