神经网络的德尔塔（Delta）到底是什么

最新推荐文章于 2025-05-24 19:25:44 发布

courniche

最新推荐文章于 2025-05-24 19:25:44 发布

阅读量520

点赞数 9

文章标签：神经网络人工智能深度学习

本文链接：https://blog.csdn.net/courniche/article/details/144966388

版权

（本文假设读者已经了解梯度下降法及 $\delta$ 的推导过程，仅对 $\delta$ 的作用和意义进一步讨论）

神经网络使用误差反向传播法更新权重和偏置参数的过程中，引入了一个重要的参数 $\delta$ ，这个 $\delta$ 到底是什么？

$\delta$ 是通过梯度下降法更新权重 $w$ 和偏置 $b$ 的过程中引入的，目的是计算权重 $w$ 或偏置 $b$ 的对损失函数 $L$ 的偏微分，来更新 $w$ 或 $b$ 。在这个过程中，直接计算 $w$ 或 $b$ 对 $L$ 的偏微分太困难，于是便引入 $\delta$ 这样一个中间变量，这样可以简化计算的过程，并且在后续反向回推的过程中可以复用之前求出的 $\delta$ 。我们先来看看输出层 $\delta$ 的表达式：

$\delta = \frac{\partial L}{\partial z}$

这里 $L$ 是损失函数， $z$ 是输出层的加权输入： $z=w_{1}x_{1}+w_{2}x_{2}+b$ ， $\delta$ 的直观含义是输入函数对输出函数的偏微分，也就是输出的变化率（变化量），可以理解为误差函数中预测值和真实值的偏差，本质上是损失函数对每一层加权输入的敏感度，描述了当前层输入的变化对整体的损失，所以通常称 $\delta$ 为“误差”，这个“误差”会通过激活函数传播到隐藏层。隐藏层的 $\delta$ 表达式复杂一些：

$\delta ^{(l)}=\frac{\partial L}{\partial z^{(l)}}=(w^{l+1})^{T}\delta ^{l+1}\cdot f{}'(z^{l})$

但仍然可以理解为某一层加权输入对于损失函数的偏导、变化率，其中 $f{}'$ 为激活函数， $w^{l+1}$ 为下一层的权重矩阵，通过梯度传播机制，整个网络的优化是协同的。

注意，损失函数 $L$ 、激活函数 $f$ 都是确定已知的，权重 $w$ 、偏置 $b$ 都设置了初始值，输入 $x$ 已知，所以 $\delta$ 是可以具体求得的。求出了每一层的 $\delta$ ，就可以用 $w:=w-\eta \frac{\partial L}{\partial w}$ 对每一层的参数进行更新了。