交叉熵损失函数对b求偏导数的具体步骤

正义的彬彬侠

于 2024-09-17 17:14:07 发布

阅读量402

点赞数 12

分类专栏：机器学习文章标签：机器学习逻辑回归人工智能

本文链接：https://blog.csdn.net/u013172930/article/details/142316392

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

公式 (3-12) 是逻辑回归中基于交叉熵损失函数对偏置项 $b$ 求导的结果。公式为：
$\frac{\partial L}{\partial b} = \frac{1}{m} \sum_{i=1}^m (\hat{y}_i - y_i)$

第一步：交叉熵损失函数

和公式 (3-11) 中一样，交叉熵损失函数 $L$ 为：
$-\frac{1}{m} \sum_{i=1}^m \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)$

其中， $\hat{y}_i$ 是模型对第 $i$ 个样本的预测值，表示为：
$\hat{y}_i = \frac{1}{1 + e^{-(w^T x_i + b)}}$

第二步：对偏置项 $b$ 求导

我们现在需要对损失函数 $L$ 对偏置项 $b$ 求导。为了便于推导，首先针对单个样本 $i$ 的损失函数 $L_i$ ：
$L_i = - \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)$

对 $b$ 求偏导：
$\frac{\partial L_i}{\partial b} = - \left( \frac{y_i}{\hat{y}_i} \frac{\partial \hat{y}_i}{\partial b} - \frac{1 - y_i}{1 - \hat{y}_i} \frac{\partial \hat{y}_i}{\partial b} \right)$

第三步：求 $\hat{y}_i$ 对 $b$ 的导数

根据 Sigmoid 函数的定义， $\hat{y}_i = \frac{1}{1 + e^{-(w^T x_i + b)}}$ ，使用链式法则对 $b$ 求导：
$\frac{\partial \hat{y}_i}{\partial b} = \hat{y}_i (1 - \hat{y}_i)$

第四步：代入并简化

将 $\frac{\partial \hat{y}_i}{\partial b} = \hat{y}_i (1 - \hat{y}_i)$ 代入原偏导数公式中：
$\frac{\partial L_i}{\partial b} = - \left( \frac{y_i}{\hat{y}_i} \hat{y}_i (1 - \hat{y}_i) - \frac{1 - y_i}{1 - \hat{y}_i} (1 - \hat{y}_i) \hat{y}_i \right)$