神经网络学习笔记（3）——梯度下降公式讲解与反向传播算法

最新推荐文章于 2025-03-06 14:12:22 发布

野指针小李

最新推荐文章于 2025-03-06 14:12:22 发布

阅读量1k

点赞数 1

分类专栏：数学深度学习神经网络文章标签：深度学习神经网络算法

本文链接：https://blog.csdn.net/qq_35357274/article/details/108904265

版权

数学同时被 3 个专栏收录

26 篇文章

订阅专栏

深度学习

16 篇文章

订阅专栏

神经网络

11 篇文章

订阅专栏

本文详细解析了梯度下降算法中的梯度公式推导过程，包括单个神经元及多个神经元的情况，介绍了如何通过链式法则计算偏导，以及反向传播算法的基本原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

结合上上两篇文章的叙述，这一篇文章主要讲解梯度的公式的推导，笔记来自于3B1B的视频，链接会放在最后。
同样的，这一篇文章依旧没有代码。

上篇文章中稍稍写漏了点东西，就是说在梯度下降过程中，步长是与该点的斜率有关，如果无关的话，那么如果步长太大，是不是就从坑中心滚过去了呀？比如这样：
移动过多
下面开始正文。

每层只有一个神经元

根据上篇文章的内容，梯度会有正有负，代表的意思就是这个点该如何移动。而每一项的相对大小告诉了改变哪个值影响更大。如下图所示：
权重梯度
由于在神经网络中，我们的经验风险是在最后一步才求得的，那么我们只能从最后超最前一层一层地来调整权重和偏差，所以这个调整的算法就叫反向传播算法（Back Propagation，BP）。

我这里再放张神经元模型的图，方便后面讲解：

我们假设这个是输出层的神经元，且上层只有一个输入，那么输出值： $a^{(L)} = \sigma(z^{(L)})$ ， $z^{(L)} = w^{(L)}a^{(L-1)}+b^{(L)}$ ，此处 $\sigma$ 为激活函数（如sigmoid、tanh或者ReLU）。

这里为什么是 $W^{(L)}$ 和 $b^{(L)}$ ，却是 $a^{(L-1)}$ ，这是因为第一篇文章提到的，W和b是针对这一层，而输入值是上一层的输出。

而相应的，代价为 $cost = (a^{(L)} - y)^2$ ，此处y是我们的期望值。

用3B1B构建的树状结构表达如下：

又上篇文章中提到的，要求最小值，那么就是求极值点，即偏导为0的地方，那么我们先对w求偏导，根据链式法则或者说上面树状图所得，公式如下：

$\frac{\partial cost}{\partial w^{(L)}}=\frac{\partial z^{(L)}}{\partial w^{(L)}} \frac{\partial a^{(L)}}{\partial z^{(L)}}\frac{\partial cost}{\partial a^{(L)}}$

上面式子中结果 $\frac{\partial cost}{\partial w^{(L)}}$ 指的是w的改变对cost的影响，第一个偏导 $\frac{\partial z^{(L)}}{\partial w^{(L)}}$ 指的是w的变化对z变化的影响，后面两个也是同理的。

那么也就是说，w的改变会影响到z，z的改变会影响到a，a的改变最终影响到cost。

这里我先罗列出上面的所有式子，避免大家还要翻上面慢慢找：
$a^{(L)} = \sigma(z^{(L)})$
$z^{(L)} = w^{(L)}a^{(L-1)}+b^{(L)}$
$cost = (a^{(L)} - y)^2$

那么我们就逐一求偏导来找寻每一个式子的意义：

$\frac{\partial cost}{\partial a^{(L)}}=2(a^{L}-y)$ ，这个偏导意味着导数的大小跟网络最终的输出( $a^{(L)}$ )减目标结果（ $y$ ）的差成正比。而这里是二倍，那么就是说如果w改变了一点，那么至少在最后这里的差值会被放大两倍。

$\frac{\partial a^{(L)}}{\partial z^{(L)}}=\sigma'(z^{(L)})$ ，这里就是说的对选择的激活函数求导，求导意味着斜率或者说变化率，也就对应了本文最开始提到的梯度的正负值以及相应的步长。

$\frac{\partial z^{(L)}}{\partial w^{(L)}}=a^{(L-1)}$ ，这个偏导指的意思是， $w$ 对 $z$ 的改变量取决于前一层的神经元，我们就可以看出，由这个式子，将上下两层的神经元进行的关联。

当然，这个是只有一个训练样本的情况，但是现实生活中训练样本是成千上万的，所以最终的结果要取算术平均值，公式如下：
$\frac{\partial cost}{\partial w^{(L)}}=\frac{1}{n}\sum_{k=0}^{n-1}\frac{\partial cost_k}{\partial w^{(L)}}$

同理，对于b的偏导如下：

$\frac{\partial cost}{\partial b^{(L)}}=\frac{\partial z^{(L)}}{\partial b^{(L)}} \frac{\partial a^{(L)}}{\partial z^{(L)}}\frac{\partial cost}{\partial a^{(L)}}$

这里唯一有变化的就是 $\frac{\partial z^{(L)}}{\partial b^{(L)}}$ ，得到的结果为： $\frac{\partial z^{(L)}}{\partial b^{(L)}}=1$ ，那么说明b的改变是不会影响到z的，最终的结果如下：
$\frac{\partial cost}{\partial b^{(L)}}=\frac{\partial z^{(L)}}{\partial b^{(L)}} \frac{\partial a^{(L)}}{\partial z^{(L)}}\frac{\partial cost}{\partial a^{(L)}}=\sigma'(z^{(L)})2(a^{L}-y)$

得到的所有训练数据中的算术平均值如下：
$\frac{\partial cost}{\partial b^{(L)}}=\frac{1}{n}\sum_{k=0}^{n-1}\frac{\partial cost_k}{\partial b^{(L)}}$

最终，将每一层的权重和偏置值放在一个矩阵中构成梯度（这里仍然是假定每一层只有一个神经元），如下：
梯度矩阵
再补充一个，代价对上一层的激活值的敏感度，那么上面的公式我们就要改为对 $a^{(L-1)}$ 求偏导，那么整体结果如下：
$\frac{\partial cost}{\partial a^{(L-1)}}=\frac{\partial z^{(L)}}{\partial a^{(L-1)}} \frac{\partial a^{(L)}}{\partial z^{(L)}}\frac{\partial cost}{\partial a^{(L)}}=w^{(L)}\sigma'(z^{(L)})2(a^{L}-y)$

虽然我们没法改变激活值，但是我们可以了解到，代价对上一层激活值的敏感度与权重有关。

每层有多个神经元

当有了上面的知识后，再来考虑实际中的情况，即每一层有多个神经元。

我们还是先从输出层开始看。

输出层无非就是从一个神经元输出扩展到了多个，相应的代价也就成了求和，公式如下：
$C_0=\sum_{j=0}^{n_L-1}(a_j^{(L)}-y_j)^2$
这里的求和上标指的是第L层的神经元个数。

同理， $a^{(L)}$ 和 $z^{{L}}$ 也变为了如下：
$a_j^{(L)}=\sigma(z_j^{(L)})$
$z_j^{(L)}=\sum_{k=0}^{n_{L-1}-1}(w_{jk}^{(L)}a_k^{(L-1)})+b_j^{(L)}$
这里需要注意的点在， $w_{jk}^{(L)}$ 的意思是，j是L层的神经元，k是L-1层的神经元，即从L-1层第k个神经元到L层第j个神经元，这样做的愿意是因为矩阵运算的缘故，详细的矩阵可以看我这个系列的第一篇文章。

偏导公式如下：
$\frac{\partial cost}{\partial w_{jk}^{(L)}}=\sum_{j=0}^{n_L-1} \frac{\partial z_j^{(L)}}{\partial w_{jk}^{(L)}} \frac{\partial a_j^{(L)}}{\partial z_j^{(L)}} \frac{\partial cost}{\partial a_j^{(L)}}$

至于每一个偏导的意义，我觉得这里只需要提 $\frac{\partial z_j^{(L)}}{\partial w_{jk}^{(L)}}$ 。
$\sum_{j=0}^{n_L-1} \frac{\partial z_j^{(L)}}{\partial w_{jk}^{(L)}}=\sum_{j=0}^{n_L-1}a_k^{(L-1)}=n_La_k^{(L-1)}$