ccc-Backpropagation-李宏毅(7)-CSDN博客

本文链接：https://blog.csdn.net/liubi32326/article/details/129032086

文章详细介绍了神经网络在优化损失函数时如何利用反向传播提高计算梯度的效率。通过链式法则，分别解释了前向传播和后向传播的概念，特别是在计算损失对权重的偏导数时的步骤。对于非输出层和输出层，文章给出了不同情况的处理方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Notation

神经网络求解最优化Loss function时参数非常多，反向传播使用链式求导的方式提升计算梯度向量时的效率，链式法则如下：
在这里插入图片描述

Backpropagation

损失函数计算为所有样本的损失之和，即样本预测值与实际值之间的差距（通常是交叉熵），函数表示如下：

考虑第一个neural：
在这里插入图片描述
由链式法则有：
$\frac{\partial l}{\partial w}=\frac{\partial z}{\partial w}\frac{\partial l}{\partial z}$
其中 $\frac{\partial z}{\partial w}$ 被称为forward pass, $\frac{\partial l}{\partial z}$ 被称为backward pass

Forward pass

这一部分计算相当容易，显然等于input的值。即使在中间的neural也是如此，直观图如下：
在这里插入图片描述

Backward pass

继续链式法则展开：
$\frac{\partial l}{\partial z}=\frac{\partial a}{\partial z}\frac{\partial l}{\partial a}$
直观图表示如下：
在这里插入图片描述
继续展开第二项：

直观图如下：

此时结果表示为：

其中 $\sigma{'} (z)$ 在Forward 的过程过程中已经计算出来了，即： $\sigma(z)(1-\sigma(z))$ 两个未知项分类讨论有：