对数几率回归模型表达式后验概率估计公式之间展开的具体步骤到交叉熵损失函数

正义的彬彬侠

已于 2024-09-17 00:17:26 修改

阅读量592

点赞数 13

分类专栏：机器学习文章标签：机器学习逻辑回归回归人工智能

于 2024-09-16 00:02:51 首次发布

本文链接：https://blog.csdn.net/u013172930/article/details/142291001

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在上篇中，我们得到了对数几率回归模型表达式，如公式(3-5)所示：
$\ln\left(\frac{y}{1 - y}\right) = w^T x + b$
将 $y$ 视作类后验概率 $P (Y = 1∣ x)$ , 则对数几率回归模型的表达式（3-5）可重写为如下（3-6）：
$\ln \frac{P(Y = 1 | x)}{P(Y = 0 | x)} = w^T x + b$

展开后，得到的公式 (3-7) 是：
$\frac{e^{w^T x + b}}{1 + e^{w^T x + b}}$
公式 (3-8) 是：
$\frac{1}{1 + e^{w^T x + b}} = 1 - \hat{y}$
将式(3-7)和式(3-8)综合，可得：
$\hat{y}^y (1 - \hat{y})^{1 - y}$
对式(3-9)两边取对数，改为求和式，并取负号，有式(3-10)：
$-\ln P(y | x) = -\frac{1}{m} \sum_{i=1}^m \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)$
式(3-10)就是经典的交叉熵损失函数，其中 $\hat{y} = \frac{1}{1 + e^{-(w^T x + b)}}$

以下为公式之间转换的的具体步骤

1. 从公式（3-6）到公式 (3-7)步骤：

我们可以利用 $P (Y = 0∣ x) = 1 - P (Y = 1∣ x)$ 这个关系，将公式 (3-6) 写成：
$\ln \frac{P(Y = 1 | x)}{1 - P(Y = 1 | x)} = w^T x + b$

然后对这个方程进行指数运算，以消除对数：
$\frac{P(Y = 1 | x)}{1 - P(Y = 1 | x)} = e^{w^T x + b}$

现在将这个方程两边同时乘以 $1 - P (Y = 1∣ x)$ ：
$e^{w^T x + b} \cdot (1 - P(Y = 1 | x))$

接下来，将右侧展开并整理得到：
$e^{w^T x + b} - P(Y = 1 | x) \cdot e^{w^T x + b}$

将所有关于 $P (Y = 1∣ x)$ 的项移到方程左侧：
$\cdot e^{w^T x + b} = e^{w^T x + b}$

提取出左边的 $P (Y = 1∣ x)$ ：
$\cdot (1 + e^{w^T x + b}) = e^{w^T x + b}$

最后，将两边同时除以 $1 + e^{w^T x + b}$ ，得到：
$\frac{e^{w^T x + b}}{1 + e^{w^T x + b}}$

这就是公式 (3-7) 的推导过程。

2. 到公式（3-8）的步骤

从公式 (3-7) 开始，我们已经得到了 $P (Y = 1∣ x)$ 的表达式：
$\frac{e^{w^T x + b}}{1 + e^{w^T x + b}}$

因为 $P (Y = 0∣ x)$ 和 $P (Y = 1∣ x)$ 之间的关系为：
$P (Y = 0∣ x) = 1 - P (Y = 1∣ x)$

将 $P (Y = 1∣ x)$ 的表达式代入：
$\frac{e^{w^T x + b}}{1 + e^{w^T x + b}}$

化简右侧的表达式：
$\frac{1 + e^{w^T x + b} - e^{w^T x + b}}{1 + e^{w^T x + b}} = \frac{1}{1 + e^{w^T x + b}}$

这就是公式 (3-8) 的推导结果。

3. 到公式3-9的步骤

这是逻辑回归模型中，给定特征 $x$ 和目标变量 $y$ 的条件概率 $P (y ∣ x)$ 的表达式。要推导这个公式，我们从逻辑回归中的概率定义出发：

当 $y = 1$ 时，即 $y$ 属于正类的情况，概率 $P (y = 1∣ x)$ 就是公式 (3-7)：
$\hat{y} = \frac{e^{w^T x + b}}{1 + e^{w^T x + b}}$
当 $y = 0$ 时，即 $y$ 属于负类的情况，概率 $P (y = 0∣ x)$ 就是公式 (3-8)：
$\hat{y} = \frac{1}{1 + e^{w^T x + b}}$

将这两种情况综合起来，逻辑回归的条件概率可以表示为：
$\hat{y}^y (1 - \hat{y})^{1 - y}$

为什么这个表达式成立：

当 $y = 1$ 时， $\hat{y}^y = \hat{y}$ 且 $\hat{y})^{1 - y} = (1 - \hat{y})^0 = 1$ ，所以公式简化为：
$\hat{y}$
当 $y = 0$ 时， $\hat{y}^y = \hat{y}^0 = 1$ 且 $\hat{y})^{1 - y} = 1 - \hat{y}$ ，因此公式简化为：
$\hat{y}$

因此，公式 (3-9) 是一种统一的表达式，同时适用于 $y = 1$ 和 $y = 0$ 两种情况，并且简洁地描述了给定输入 $x$ 时 $y$ 为正类或负类的概率。

这也是逻辑回归模型的最大似然估计的基础，在后续的损失函数（如交叉熵损失）推导中将用到这一表达式。

4. 到公式3-10的步骤

要推导这个公式，我们可以从最大似然估计出发，再通过负对数似然函数来构造损失函数。

第一步：构造似然函数

我们希望最大化给定训练数据 ${(x_i, y_i)\}_{i=1}^m$ 的联合概率。根据公式 (3-9)，给定输入 $x_i$ 和输出 $y_i$ 的条件概率 $P(y_i | x_i)$ 为：
$P(y_i | x_i) = \hat{y}_i^{y_i} (1 - \hat{y}_i)^{1 - y_i}$
对于所有样本的联合似然函数 $L$ ，即所有样本点 $x_i$ 和其对应输出 $y_i$ 的联合概率为：
$\prod_{i=1}^m P(y_i | x_i) = \prod_{i=1}^m \hat{y}_i^{y_i} (1 - \hat{y}_i)^{1 - y_i}$

第二步：取对数似然函数

为了简化计算，我们取似然函数的对数：
$\ln L = \sum_{i=1}^m \ln P(y_i | x_i) = \sum_{i=1}^m \ln \left( \hat{y}_i^{y_i} (1 - \hat{y}_i)^{1 - y_i} \right)$

根据对数的性质，可以将对数作用到每个乘积项上：
$\ln L = \sum_{i=1}^m \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)$

第三步：构造损失函数

为了最大化似然函数 $L$ ，我们可以最小化负对数似然函数。这就是我们通常称为的交叉熵损失函数：
$-\ln L = - \sum_{i=1}^m \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)$

为了将损失函数标准化，我们对样本数 $m$ 进行平均，得到：
$-\frac{1}{m} \sum_{i=1}^m \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right)$

这就是公式 (3-10)，表示的是交叉熵损失函数，其中 $\hat{y}_i$ 是模型的预测值，而 $y_i$ 是实际的标签。

直观理解：

$y_i \ln \hat{y}_i$ 是当 $y_i = 1$ 时的损失，即当实际标签为 1 时，损失取决于预测为 1 的概率 $\hat{y}_i$ 。
$y_i) \ln (1 - \hat{y}_i)$ 是当 $y_i = 0$ 时的损失，即当实际标签为 0 时，损失取决于预测为 0 的概率 $\hat{y}_i$ 。