【机器学习-11】逻辑回归的-交叉熵损失函数

逻辑回归交叉熵损失函数梯度推导

原创于 2025-03-29 19:34:25 发布 · 953 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #逻辑回归 #人工智能

机器学习探索笔记 | 从理论到实践专栏收录该内容

35 篇文章

订阅专栏

【机器学习-11】逻辑回归的交叉熵损失函数

梯度下降的求导过程是针对逻辑回归的交叉熵损失函数的推导，具体步骤如下：

1. 损失函数（交叉熵）

$J(w,b)=−1m∑i=1m[y(i)log⁡(fw,b(x(i)))+(1−y(i))log⁡(1−fw,b(x(i)))]J(\mathbf{w}, b) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(f_{\mathbf{w},b}(\mathbf{x}^{(i)})) + (1-y^{(i)}) \log(1 - f_{\mathbf{w},b}(\mathbf{x}^{(i)})) \right]$
其中：
• $fw,b(x)=σ(wTx+b)=11+e−(wTx+b)f_{\mathbf{w},b}(\mathbf{x}) = \sigma(\mathbf{w}^T \mathbf{x} + b) = \frac{1}{1+e^{-(\mathbf{w}^T \mathbf{x} + b)}}$ （Sigmoid函数）
• ( m ) 是样本数量， $y^{(i)}$ 是真实标签（0或1）。

2. 对权重 $w_j$ 和偏置 $b$ 的偏导数

（1）权重 $w_j$ 的偏导

$∂J(w,b)∂wj=1m∑i=1m(fw,b(x(i))−y(i))xj(i)\frac{\partial J(\mathbf{w}, b)}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right) x_j^{(i)}$
推导过程：

对Sigmoid函数求导： $σ′(z)=σ(z)(1−σ(z))\sigma'(z) = \sigma(z)(1-\sigma(z))$ 。
通过链式法则：
$∂J∂wj=1m∑i=1m[y(i)f⋅∂f∂wj−1−y(i)1−f⋅∂f∂wj]\frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} \left[ \frac{y^{(i)}}{f} \cdot \frac{\partial f}{\partial w_j} - \frac{1-y^{(i)}}{1-f} \cdot \frac{\partial f}{\partial w_j} \right]$
合并同类项后代入 $∂f∂wj=f(1−f)⋅xj(i)\frac{\partial f}{\partial w_j} = f(1-f) \cdot x_j^{(i)}$ ，最终化简得到上述结果。

（2）偏置 $b$ 的偏导

$∂J(w,b)∂b=1m∑i=1m(fw,b(x(i))−y(i))\frac{\partial J(\mathbf{w}, b)}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right)$
推导类似权重，区别在于 $∂f∂b=f(1−f)\frac{\partial f}{\partial b} = f(1-f)$ 。

3. 梯度下降更新规则

• 权重更新：
$wj:=wj−α⋅1m∑i=1m(fw,b(x(i))−y(i))xj(i)w_j := w_j - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right) x_j^{(i)}$
• 偏置更新：
$\alpha \cdot \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right)$
其中 $α\alpha$ 是学习率。