Machine Learning |吴恩达（2-2）---神经网络,反向传播推导（超简单版）

最新推荐文章于 2025-03-24 09:27:52 发布

路飞在福州

最新推荐文章于 2025-03-24 09:27:52 发布

阅读量6.2k

点赞数 19

分类专栏：机器学习 matlab

本文链接：https://blog.csdn.net/weixin_40920228/article/details/80709216

版权

这篇博客详细介绍了神经网络的反向传播算法，通过中间变量δ(l)表示的'误差'来简化梯度计算。文章阐述了δ(l)与δ(l+1)之间的关系，确定输出层'误差'的值，并描述了整个反向传播过程，以及在训练循环中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

神经网络,反向传播推导（超简单版）

神经网络,反向传播推导（超简单版）

标注与说明

$\theta_{i,j}^{(l)}$ 表明从 $(l)$ 层的第i个元素到 $(l+)$ 层的第j个元素的 $\theta$ 。这样的次序是指明了 $\theta^{(l)}$ 矩阵的排列次序。 $\theta_{i,j}^{(l)}$ 表明参数矩阵 $\theta^{(l)}$ 里的每一行为一个 $a_{j}^{(l)}$ 所对应的参数。
l 表示网络的层数=1，2，3….L（L=网络总层数-1）
$a_{j}^{(l)}=g'(z_{j}^{(l)})=sigmoid'(z_{j}^{(l)})$
$J(\Theta)==C(\Theta)=-\frac{1}{m}\sum_{i=1}^{m}\sum_{k=1}^{k}\bigg [ y_{k}^{(i)}log((h_{\Theta}(x^{(i)}))_{k})+(1-y_{k}^{(i)})log(1-(h_{\Theta}(x^{(i)}))_{k}) \bigg] + \frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{sl}\sum_{j=1}^{s_{(l+1)}}(\Theta_{j,i}^{(l)})^2$
$sl$ 表面 $a^{(l)}$ 的神经元个数是 $s$ 个。

明确我们的题目

在完成一次前向传播后，已知 $J(\Theta)$ 也就是已知 $(\hat{y},y)$ ,为了实现梯度下降： $\theta^{(l)}:=\theta^{(l)}-\frac{∂C}{∂\theta^{(l)}}$ 。我们需要求 $\frac{∂C}{∂\theta^{(l)}}$

解题思路

这里写图片描述
$\delta$ 在很多书中翻译为‘误差’，但这与模型预测值与样本y之间的误差不是一个概念。实际上 $\delta$ 是一个微分值。我们定义 $\delta^{(l)}=\frac{∂C}{∂z^{(l)}}$ 。有了这个中间值设定，可以简化我们的计算，不用对每一层 $\theta$ 的偏导计算都从网络的输出层开始重新计算一遍。至于为什么将这个中间值设定在 $\frac{∂C}{∂z^{(l)}}$ ，据我的理解是两个原因：1、这是离我们要求导的 $\theta^{(l)}$ 最靠近的一个元素。2、你也可以把这个中间值设定在 $\frac{∂C}{∂a^{(l)}}$ ,但这样在推导后的公式表达上比较繁琐，不易直观理解。事实上没有这个中间值你也能完整表达整个网络的梯度求导，只不过那个公式肯定充满了 $\sum$ 会让你看着头晕。
如果你知道了 $\delta^{(l)}=\frac{∂C}{∂z^{(l)}}$ 的数值，那么据此求解 $\frac{∂C}{∂\theta^{(l)}}=\frac{∂C}{∂z^{(l)}}\cdot\frac{∂z^{(l)}}{∂\theta^{(l)}}=\delta^{(l)}\cdot\frac{∂z^{(l)}}{∂\theta^{(l)}}$ 就变得简单多了。
再进一步，如果我们找到 $\delta^{(l)}$ 与 $\delta^{(l+1)}$ 之间的关系，在反向传播中，我们刚好可以从输出层往输入层方向一层层的计算下去。