交叉熵损失函数对w求偏导数的具体步骤

正义的彬彬侠

于 2024-09-17 16:48:14 发布

阅读量431

点赞数 7

分类专栏：机器学习文章标签：机器学习逻辑回归人工智能

本文链接：https://blog.csdn.net/u013172930/article/details/142315823

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

公式 (3-11) 是逻辑回归中基于交叉熵损失函数对权重 $w$ 求导的结果，用于梯度下降优化。具体表达式如下：
$\frac{\partial L}{\partial w} = \frac{1}{m} \sum_{i=1}^m x_i (\hat{y}_i - y_i)$

第一步：交叉熵损失函数

从公式 (3-10) 我们知道，交叉熵损失函数 $L$ 为：
$-\frac{1}{m} \sum_{i=1}^m \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)$

其中， $\hat{y}_i$ 是模型的预测概率，表示为：
$\hat{y}_i = \frac{1}{1 + e^{-(w^T x_i + b)}}$

第二步：对权重 $w$ 求导

我们现在要求的是损失函数对权重 $w$ 的偏导数。首先，我们只关注每个样本 $i$ 的损失项：
$L_i = - \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)$

对权重 $w$ 求偏导：
$\frac{\partial L_i}{\partial w} = - \left( \frac{y_i}{\hat{y}_i} \frac{\partial \hat{y}_i}{\partial w} - \frac{1 - y_i}{1 - \hat{y}_i} \frac{\partial \hat{y}_i}{\partial w} \right)$

第三步：求 $\hat{y}_i$ 对 $w$ 的导数

根据 $\hat{y}_i = \frac{1}{1 + e^{-(w^T x_i + b)}}$ ，使用链式法则求导：
$\frac{\partial \hat{y}_i}{\partial w} = \hat{y}_i (1 - \hat{y}_i) x_i$

这一结果是由逻辑回归的Sigmoid 函数的导数性质决定的，即：
$\frac{d}{dx} \left( \frac{1}{1 + e^{-x}} \right) = \hat{y}_i (1 - \hat{y}_i)$

第四步：代入并简化

将 $\frac{\partial \hat{y}_i}{\partial w} = \hat{y}_i (1 - \hat{y}_i) x_i$ 代入原来的偏导数公式中：
$\frac{\partial L_i}{\partial w} = - \left( \frac{y_i}{\hat{y}_i} \hat{y}_i (1 - \hat{y}_i) x_i - \frac{1 - y_i}{1 - \hat{y}_i} (1 - \hat{y}_i) \hat{y}_i x_i \right)$