逻辑斯谛回归与最大熵模型（Logistic Regression and Maximum Entropy Model）

最新推荐文章于 2024-06-14 16:51:20 发布

夏树让

最新推荐文章于 2024-06-14 16:51:20 发布

阅读量752

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习算法人工智能深度学习

本文链接：https://blog.csdn.net/qq_37430422/article/details/105289993

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了逻辑斯谛回归与最大熵模型的关系，揭示了逻辑斯谛回归如何作为最大熵模型的一种特殊情况。介绍了逻辑斯谛回归在分类问题中的应用，包括几率与对数几率的概念，以及其推广至多类分类的方法。同时，阐述了最大熵模型的基本原理，解释了为何选择熵最大的模型可以避免过拟合。最后，通过数学推导证明了逻辑斯谛回归与最大熵模型之间的等价性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

逻辑斯谛回归（logistic regression）是机器学习中的经典分类方法，可用于二类或多类分类；最大熵原理是概率学习或估计的一个准则，最大熵原理认为在所有可能的概率模型的集合中，熵最大的模型是最好的模型。将其推广到分类问题得到最大熵模型（maximun entropy model）。

本文先分别介绍逻辑斯谛回归和最大熵模型，最后证明逻辑斯谛回归是最大熵模型的一种特殊情况。

符号约定

$x (i)$ : 代表第 $i$ 个样本输入， $\in \mathbb{R}^n, i=0,1,2,\dots,m$ 。
$x(i)_j$ : 代表第 $i$ 个样本的第 $j$ 个元素， $j=0,1,2,\dots,n$ 。
$y (i)$ : 代表第 $i$ 个样本对应的真实类别。
$\pi()$ : 需要求得的概率分布函数， $\pi(x)_u$ 表示该函数将样本 $x$ 划分为 $u$ 类的概率。
$A (u, v)$ : 指示函数，若 $u = v$ ，则等于 1，否则为零。

逻辑斯谛回归

对于二分类，逻辑斯谛回归模型可以表示为：
$\pi(x)_1 = \frac{e^{\lambda x}}{e^{\lambda x} + 1} \tag{1.1}$
$\pi(x)_2 = \frac{1}{e^{\lambda x} + 1} \tag{1.2}$
其中， $\lambda \in \mathbb{R}^n$ ，为模型参数。从上面公式可以看出， $\pi(x)_1 \in (0,1)$ ， $\pi(x)_2 = 1 -\pi(x)_1$ ，而且该模型完全是由 $\lambda$ 参数决定的。 $\pi(x)_1$ 是 sigmoid 函数（代表一类函数，其函数图形为 $S$ 形曲线，在无特意指明的情况下一般默认为公式 $(1.1)$ 在 $\lambda = 1$ 时的情况）。

几率与逻辑斯谛回归

几率（odds）表示某件事发生的概率（记作 $p$ ）与该事件不发生的概率的比值： $\frac{p}{1-p}$ ，该事件的对数几率（log odds）或 logit 函数为：
$\text{logit} (p) = \log\frac{p}{1-p} \tag{1.3}$
可看出 logit 函数可将 0 至 1 之间的值（概率）映射到整个实数域 $(-\infty,+\infty)$ 。而 sigmoid 函数可将整个实数域的值映射到 0 至 1 之间：
$\text{sigmoid}(x) = \frac{e^x}{e^x+1} \tag{1.4}$
将 sigmoid 函数作为输入带入到 logit 函数中时，可发现这两个函数互为反函数。
$\begin{aligned} \text{logit}(\text{sigmoid}(x)) &= \log\frac{e^x/(e^x+1)}{1/(e^x+1)} \\ &=x \end{aligned} \tag{1.5}$
将逻辑斯谛回归的 $(1.1)$ 公式带入到 logit 函数中，有：
$\text{logit}(\pi(x)_1) = \lambda \cdot x \tag{1.6}$
所以说，在逻辑斯谛回归模型中，输出类别为 1 的对数几率是输入 $x$ 的线性函数。线性函数值越接近正无穷，判断为类别 1 的概率越大，值越接近负无穷，则概率越低。这也是逻辑斯谛回归模型如此命名的原因。

推广至多类分类

将逻辑斯谛回归推广至多类（k类）分类，可表示为：
$\pi(x)_v = \frac{e^{\lambda_v x}}{\sum_{u=1}^{k} e^{\lambda_u x}} \tag{1.7}$
在这里， $\lambda$ 是一个 $\times n$ 的矩阵，一行对应一种类别的参数。如果令 $k = 2$ ，且 $\lambda _2$ 为一个零向量，就可得到之前所讲的二分类逻辑斯谛回归。

此时 $\pi()$ 应满足：

$\pi(x)_v \ge 0$
$\sum_v^k \pi(x)_v = 1$
$\pi(x(i))_{y(i)}$ 尽可能大。

前面两点不需要特别关注，因为这是公式 $(1.7)$ 本身具有的特性，无关 $\lambda$ 的取值。第三点是逻辑斯谛回归的核心目标，需要找到合适的 $\lambda$ 来实现。

最大熵模型

前言中有说到，最大熵原理是概率学习或估计的一个准则，最大熵原理认为在所有可能的概率模型的集合中，熵最大的模型是最好的模型。将其推广到分类问题得到最大熵模型（maximum entropy models）。

在信息论里，熵（entropy）是对不确定性的测量，熵越高则不确定性越高。假设离散随机变量 $X$ 的概率分布为 $P (X)$ ，则其熵为：
$-\sum_x P(x)\log P(x) \tag{2.1}$
假设满足所有约束条件的模型集合为 $P$ ，最大熵原理建议选取 $P$ 中熵最大的模型。使用 $E_p=E_{\hat{p}}$ 泛指模型所需满足的约束条件，最大熵模型 $p^*$ 可定义为：
$\begin{aligned} P &= \{p|E_p=E_{\hat{p}}\} \\ \\ p^* &= \arg \max_{p \in P} H(p) \end{aligned} \tag{2.2}$

不知道读者们是否有困惑（我刚接触的时候就有）：对于分类问题，模型不是在训练数据上的分类确定性越高（熵越低）越好吗？为什么最大熵原理却推荐选择满足限制条件的熵最大的模型？

其实，这么做主要是为了避免选择在训练数据上过拟合（over-fitting）的模型。我们都知道，在训练数据上过拟合的模型，在遇到未见过的新数据时泛化能力较差，而模型的泛化能力是我们最关心的一点。

直观地，最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多的信息的情况下，那些不确定的部分都是“等可能的”。

逻辑斯谛回归是最大熵模型的一个特例

接下来证明逻辑斯谛回归是最大熵模型的一个特例。先回顾一下逻辑斯谛回归在多类问题上的公式：
$\pi(x)_v = \frac{e^{\lambda_v x}}{\sum_{u=1}^{k} e^{\lambda_u x}} \tag{3.1}$
根据公式 $(3.1)$ 可以求得该函数对参数 $\lambda$ 的偏导数：
$\begin{aligned} \frac{\partial \pi(x)_v}{\partial\lambda_{v,j}} &= \frac{\partial \pi(x)_v}{\partial e^{\lambda_v x}}\frac{\partial e^{\lambda_v x}}{\partial\lambda_{v,j}}=x_j\pi(x)_v(1-\pi(x)_v) \\ \\ \frac{\partial \pi(x)_v}{\partial\lambda_{u,j}} &= \frac{\partial \pi(x)_v}{\partial e^{\lambda_u x}}\frac{\partial e^{\lambda_u x}}{\partial\lambda_{u,j}}=-x_j\pi(x)_v\pi(x)_u \quad (\text{when }u \neq v) \end{aligned} \tag{3.2}$

导出逻辑斯谛回归中对模型的限制条件

第一节有说过，对于多类问题上的逻辑斯谛回归，我们希望 $\pi(x(i))_{y(i)}$ 在所有训练样本上都尽可能大，即让如下式子尽可能大：
$\prod_{i=1}^m \pi(x(i))_{y(i)} \tag{3.3}$
等价于最大化如下的对数似然：
$f(\lambda) = \sum_{i=1}^m\log (\pi(x(i))_{y(i)}) \tag{3.4}$
所以，我们需要找到一个 $\lambda$ ，使得 $f(\lambda)$ 最大，故计算 $f(\lambda)$ 对 $\lambda$ 的偏导数，并令其等于零。
$\begin{aligned} \frac{\partial}{\partial\lambda_{u,j}} f(\lambda) &= \frac{\partial}{\partial\lambda_{u,j}} \sum_{i=1}^m\log (\pi(x(i))_{y(i)})\\ &= \sum_{i=1}^m \frac{1}{\pi(x(i))_{y(i)}} \frac{\partial}{\partial\lambda_{u,j}}\pi(x(i))_{y(i)}\\ &= \sum_{i=1,y(i)=u}^m \frac{1}{\pi(x(i))_{u}} \frac{\partial}{\partial\lambda_{u,j}}\pi(x(i))_{u} \\ &\qquad+ \sum_{i=1,y(i)\neq u}^m \frac{1}{\pi(x(i))_{y(i)}} \frac{\partial}{\partial\lambda_{u,j}}\pi(x(i))_{y(i)}\\ &= \sum_{i=1,y(i)=u}^m \frac{1}{\pi(x(i))_{u}} x(i)_j\pi(x(i))_u(1-\pi(x(i))_u) \\ &\qquad- \sum_{i=1,y(i)\neq u}^m \frac{1}{\pi(x(i))_{y(i)}} x(i)_j\pi(x(i))_{y(i)}\pi(x(i))_u\\ &=\sum_{i=1,y(i)=u}^m x(i)_j(1-\pi(x(i))_u) - \sum_{i=1,y(i)\neq u}^m x(i)_j\pi(x(i))_u\\ &=\sum_{i=1,y(i)=u}^m x(i)_j - \sum_{i=1}^m x(i)_j\pi(x(i))_u \end{aligned} \tag{3.5}$

令该偏导数为零，得：
$\begin{aligned} \sum_{i=1}^m \pi(x(i))_u x(i)_j &= \sum_{i=1,y(i)=u}^m x(i)_j \quad(\text{for all }u,j)\\ &=\sum_{i=1}^m A(u,y(i))x(i)_j \quad(\text{for all }u,j) \end{aligned} \tag{3.6}$
$A$ 为指示函数，上面的公式隐含如下信息：在训练样本中，类别为 u 的所有样本的第 $j$ 值个元素的总和等于模型 $\pi(x(i))_u$ 在所有训练样本（无关类别）的第 $j$ 个元素上的概率质量（probability mass）之和。而且，还说明，最优的 $\lambda$ 应使概率函数 $\pi(x(i))_u$ 的执行效果尽可能地接近指示函数 $A (u, y (i))$ 。

通过以上的推导，我们可以把逻辑斯谛回归中 $\pi()$ 应满足的条件重新写一下：

$\pi(x)_v \ge 0 \quad \text{always}$
$\sum_v^k \pi(x)_v = 1 \quad \text{always}$
$\sum_{i=1}^m \pi(x(i))_u x(i)_j=\sum_{i=1}^m A(u,y(i))x(i)_j \quad(\text{for all }u,j)$

将限制条件应用到最大熵原理中

现在，我们可以把上节中 $\pi()$ 应满足的条件加入到最大熵模型的定义中（公式 $(2.2)$ ），而 $\pi()$ 的熵可写作：
$-\sum_{u=1}^k\sum_{i=1}^m \pi(x(i)_u)\log (\pi(x(i))_u) \tag{3.7}$
对于公式 $(2.2)$ 条件极值的求解，可以使用拉格朗日乘数法，将目标函数与所有加权的约束条件相加，即：
$\begin{aligned} L = &\sum_{j=1}^n \sum_{u=1}^k \lambda_{u,j}\left(\sum_{i=1}^m\pi(x(i))_ux(i)_j-A(u,y(i))x(i)_j\right)\\ &+ \sum_{u=1}^k \sum_{i=1}^{m} \beta_i(\pi(x(i))_u-1)\\ &- \sum_{u=1}^k \sum_{i=1}^{m} \pi(x(i)_u)\log (\pi(x(i))_u) \end{aligned} \tag{3.8}$
上面的 $\lambda$ 和 $\beta$ 是未定权重（参数）， $\pi()$ 也是未知的概率函数。我们的目标是在所有的函数空间中找到一个 $\pi()$ ，以最大化 $L$ ，故令 $L$ 对于 $\pi(x(i)_u)$ 的偏导数等于零（对于所有的 $i, u$ ）。
$\begin{aligned} \frac{\partial}{\partial\pi(x(i))_u} L &= \sum_{j=1}^n \lambda_{u,j}x(i)_j + \beta_i-\log (\pi(x(i))_u) - 1 \\ &= \lambda_u x(i) + \beta_i-\log (\pi(x(i))_u) - 1 \\ &= 0 \end{aligned} \tag{3.9}$

将上式简化可得：
$\pi(x(i))_u = e^{\lambda_u x(i) + \beta_i -1} \tag{3.10}$
又因为 $\sum_{u=1}^k \pi(x(i))_u = 1$ ，则有：
$\begin{aligned} e^{\beta} &= 1/ \sum_{u=1}^k e^{\lambda_u x(i)-1} \end{aligned} \tag{3.11}$

将 $\beta$ 带入到公式 $(3.10)$ 中，简化可得：
$\begin{aligned} \pi(x)_u = \frac{e^{\lambda_u \cdot x}}{\sum_{v=1}^k e^{\lambda_v \cdot x}} \end{aligned} \tag{3.12}$
这不正是多类问题上的逻辑斯谛回归公式 $(1.7)$ 或 $(3.1)$ 吗？