公式 (3-12) 是逻辑回归中基于交叉熵损失函数对偏置项
b
b
b 求导的结果。公式为:
∂
L
∂
b
=
1
m
∑
i
=
1
m
(
y
^
i
−
y
i
)
\frac{\partial L}{\partial b} = \frac{1}{m} \sum_{i=1}^m (\hat{y}_i - y_i)
∂b∂L=m1i=1∑m(y^i−yi)
第一步:交叉熵损失函数
和公式 (3-11) 中一样,交叉熵损失函数
L
L
L 为:
L
=
−
1
m
∑
i
=
1
m
(
y
i
ln
y
^
i
+
(
1
−
y
i
)
ln
(
1
−
y
^
i
)
)
L = -\frac{1}{m} \sum_{i=1}^m \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)
L=−m1i=1∑m(yilny^i+(1−yi)ln(1−y^i))
其中,
y
^
i
\hat{y}_i
y^i 是模型对第
i
i
i 个样本的预测值,表示为:
y
^
i
=
1
1
+
e
−
(
w
T
x
i
+
b
)
\hat{y}_i = \frac{1}{1 + e^{-(w^T x_i + b)}}
y^i=1+e−(wTxi+b)1
第二步:对偏置项 b b b 求导
我们现在需要对损失函数
L
L
L 对偏置项
b
b
b 求导。为了便于推导,首先针对单个样本
i
i
i 的损失函数
L
i
L_i
Li:
L
i
=
−
(
y
i
ln
y
^
i
+
(
1
−
y
i
)
ln
(
1
−
y
^
i
)
)
L_i = - \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)
Li=−(yilny^i+(1−yi)ln(1−y^i))
对
b
b
b 求偏导:
∂
L
i
∂
b
=
−
(
y
i
y
^
i
∂
y
^
i
∂
b
−
1
−
y
i
1
−
y
^
i
∂
y
^
i
∂
b
)
\frac{\partial L_i}{\partial b} = - \left( \frac{y_i}{\hat{y}_i} \frac{\partial \hat{y}_i}{\partial b} - \frac{1 - y_i}{1 - \hat{y}_i} \frac{\partial \hat{y}_i}{\partial b} \right)
∂b∂Li=−(y^iyi∂b∂y^i−1−y^i1−yi∂b∂y^i)
第三步:求 y ^ i \hat{y}_i y^i 对 b b b 的导数
根据 Sigmoid 函数的定义,
y
^
i
=
1
1
+
e
−
(
w
T
x
i
+
b
)
\hat{y}_i = \frac{1}{1 + e^{-(w^T x_i + b)}}
y^i=1+e−(wTxi+b)1,使用链式法则对
b
b
b 求导:
∂
y
^
i
∂
b
=
y
^
i
(
1
−
y
^
i
)
\frac{\partial \hat{y}_i}{\partial b} = \hat{y}_i (1 - \hat{y}_i)
∂b∂y^i=y^i(1−y^i)
第四步:代入并简化
将
∂
y
^
i
∂
b
=
y
^
i
(
1
−
y
^
i
)
\frac{\partial \hat{y}_i}{\partial b} = \hat{y}_i (1 - \hat{y}_i)
∂b∂y^i=y^i(1−y^i) 代入原偏导数公式中:
∂
L
i
∂
b
=
−
(
y
i
y
^
i
y
^
i
(
1
−
y
^
i
)
−
1
−
y
i
1
−
y
^
i
(
1
−
y
^
i
)
y
^
i
)
\frac{\partial L_i}{\partial b} = - \left( \frac{y_i}{\hat{y}_i} \hat{y}_i (1 - \hat{y}_i) - \frac{1 - y_i}{1 - \hat{y}_i} (1 - \hat{y}_i) \hat{y}_i \right)
∂b∂Li=−(y^iyiy^i(1−y^i)−1−y^i1−yi(1−y^i)y^i)
经过化简:
∂
L
i
∂
b
=
(
y
^
i
−
y
i
)
\frac{\partial L_i}{\partial b} = (\hat{y}_i - y_i)
∂b∂Li=(y^i−yi)
第五步:对整个数据集求和并平均
为了得到整体的梯度,我们对所有样本进行求和,并除以样本数
m
m
m:
∂
L
∂
b
=
1
m
∑
i
=
1
m
(
y
^
i
−
y
i
)
\frac{\partial L}{\partial b} = \frac{1}{m} \sum_{i=1}^m (\hat{y}_i - y_i)
∂b∂L=m1i=1∑m(y^i−yi)
这就是公式 (3-12) 的推导结果。
直观理解:
- y ^ i − y i \hat{y}_i - y_i y^i−yi 是模型的预测值与实际标签之间的误差。
- 由于偏置 b b b 影响所有样本的输出,而不依赖于输入特征 x i x_i xi,所以对 b b b 求导时没有像对 w w w 求导那样乘以 x i x_i xi,只留下了误差 y ^ i − y i \hat{y}_i - y_i y^i−yi 的累积平均。
这个结果用于梯度下降法,调整偏置 b b b 以最小化损失函数 L L L。