公式 (3-11) 是逻辑回归中基于交叉熵损失函数对权重
w
w
w 求导的结果,用于梯度下降优化。具体表达式如下:
∂
L
∂
w
=
1
m
∑
i
=
1
m
x
i
(
y
^
i
−
y
i
)
\frac{\partial L}{\partial w} = \frac{1}{m} \sum_{i=1}^m x_i (\hat{y}_i - y_i)
∂w∂L=m1i=1∑mxi(y^i−yi)
第一步:交叉熵损失函数
从公式 (3-10) 我们知道,交叉熵损失函数
L
L
L 为:
L
=
−
1
m
∑
i
=
1
m
(
y
i
ln
y
^
i
+
(
1
−
y
i
)
ln
(
1
−
y
^
i
)
)
L = -\frac{1}{m} \sum_{i=1}^m \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)
L=−m1i=1∑m(yilny^i+(1−yi)ln(1−y^i))
其中,
y
^
i
\hat{y}_i
y^i 是模型的预测概率,表示为:
y
^
i
=
1
1
+
e
−
(
w
T
x
i
+
b
)
\hat{y}_i = \frac{1}{1 + e^{-(w^T x_i + b)}}
y^i=1+e−(wTxi+b)1
第二步:对权重 w w w 求导
我们现在要求的是损失函数对权重
w
w
w 的偏导数。首先,我们只关注每个样本
i
i
i 的损失项:
L
i
=
−
(
y
i
ln
y
^
i
+
(
1
−
y
i
)
ln
(
1
−
y
^
i
)
)
L_i = - \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)
Li=−(yilny^i+(1−yi)ln(1−y^i))
对权重
w
w
w 求偏导:
∂
L
i
∂
w
=
−
(
y
i
y
^
i
∂
y
^
i
∂
w
−
1
−
y
i
1
−
y
^
i
∂
y
^
i
∂
w
)
\frac{\partial L_i}{\partial w} = - \left( \frac{y_i}{\hat{y}_i} \frac{\partial \hat{y}_i}{\partial w} - \frac{1 - y_i}{1 - \hat{y}_i} \frac{\partial \hat{y}_i}{\partial w} \right)
∂w∂Li=−(y^iyi∂w∂y^i−1−y^i1−yi∂w∂y^i)
第三步:求 y ^ i \hat{y}_i y^i 对 w w w 的导数
根据
y
^
i
=
1
1
+
e
−
(
w
T
x
i
+
b
)
\hat{y}_i = \frac{1}{1 + e^{-(w^T x_i + b)}}
y^i=1+e−(wTxi+b)1,使用链式法则求导:
∂
y
^
i
∂
w
=
y
^
i
(
1
−
y
^
i
)
x
i
\frac{\partial \hat{y}_i}{\partial w} = \hat{y}_i (1 - \hat{y}_i) x_i
∂w∂y^i=y^i(1−y^i)xi
这一结果是由逻辑回归的Sigmoid 函数的导数性质决定的,即:
d
d
x
(
1
1
+
e
−
x
)
=
y
^
i
(
1
−
y
^
i
)
\frac{d}{dx} \left( \frac{1}{1 + e^{-x}} \right) = \hat{y}_i (1 - \hat{y}_i)
dxd(1+e−x1)=y^i(1−y^i)
第四步:代入并简化
将
∂
y
^
i
∂
w
=
y
^
i
(
1
−
y
^
i
)
x
i
\frac{\partial \hat{y}_i}{\partial w} = \hat{y}_i (1 - \hat{y}_i) x_i
∂w∂y^i=y^i(1−y^i)xi 代入原来的偏导数公式中:
∂
L
i
∂
w
=
−
(
y
i
y
^
i
y
^
i
(
1
−
y
^
i
)
x
i
−
1
−
y
i
1
−
y
^
i
(
1
−
y
^
i
)
y
^
i
x
i
)
\frac{\partial L_i}{\partial w} = - \left( \frac{y_i}{\hat{y}_i} \hat{y}_i (1 - \hat{y}_i) x_i - \frac{1 - y_i}{1 - \hat{y}_i} (1 - \hat{y}_i) \hat{y}_i x_i \right)
∂w∂Li=−(y^iyiy^i(1−y^i)xi−1−y^i1−yi(1−y^i)y^ixi)
经过化简,得到:
∂
L
i
∂
w
=
(
y
^
i
−
y
i
)
x
i
\frac{\partial L_i}{\partial w} = (\hat{y}_i - y_i) x_i
∂w∂Li=(y^i−yi)xi
第五步:对整个数据集求和并平均
将每个样本的梯度求和并对样本数量
m
m
m 进行平均:
∂
L
∂
w
=
1
m
∑
i
=
1
m
(
y
^
i
−
y
i
)
x
i
\frac{\partial L}{\partial w} = \frac{1}{m} \sum_{i=1}^m (\hat{y}_i - y_i) x_i
∂w∂L=m1i=1∑m(y^i−yi)xi
这就是公式 (3-11) 的推导结果。
直观理解:
- y ^ i − y i \hat{y}_i - y_i y^i−yi 是模型的预测值与真实值之间的误差。对于每个样本,它表示模型的预测偏离真实值的程度。
- 这个误差乘以对应样本的特征 x i x_i xi 来更新权重,表明哪些特征在预测误差中起了作用。
- 最后对所有样本取平均,是为了计算整个训练集上的梯度。
这个结果用于梯度下降法,来调整权重 w w w 以最小化损失函数 L L L。