李航·统计学习方法笔记·第6章 logistic regression与最大熵模型（2）·最大熵模型

本文链接：https://blog.csdn.net/tina_ttl/article/details/53542004

本文详细介绍了最大熵模型，它是基于最大熵原理的机器学习模型，与逻辑斯蒂回归不同。最大熵原理指出在满足约束条件的所有概率模型中，熵最大的模型最优。内容涵盖最大熵原理的基本内容和几何意义，以及最大熵模型的约束条件、求解方法和在分类问题中的应用。通过特征函数和经验分布，构建有约束的优化问题，利用拉格朗日对偶性求解模型参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

李航·统计学习方法笔记·第6章 logistic regression与最大熵模型（2）·最大熵模型

标签（空格分隔）：机器学习教程·李航统计学习方法

李航统计学习方法笔记第6章 logistic regression与最大熵模型2最大熵模型
最大熵原理
- 1 最大熵原理的基本内容
- 2 最大熵原理的几何意义
最大熵模型
最大熵模型的学习
- 1 最大熵模型的求解
- 2 例子
最大熵模型学习的等价形式
逻辑斯蒂回归模型和最大熵模型
参考文献

注意，这里有一个前提，这里讨论的分类模型都是概率模型！
最大熵模型是另外一种机器学习模型，与逻辑斯蒂回归模型没有什么关系，只不过被安排在了一个章节讲解

最大熵原理只是一个学习的准则，利用这个准则可以从一堆概率模型中选择一个最优的

1 最大熵原理

最大熵模型是根据最大熵原理推导得到的，所以，为了推导最大熵模型，必须首先了解最大熵原理！

1.1 最大熵原理的基本内容

最大熵原理认为：在所有可能的概率模型中，熵最大的模型为最好的概率模型（下图中的阶段2）
这里的“所有可能的概率模型”是一个概率模型的集合，是在所有的概率模型中，根据一定的约束条件选取出来的（上图中的阶段1）

不知道能否这样理解？？？
比如，对应逻辑斯蒂回归模型中，它使用的用来表示分类器的模型其实就是利用逻辑斯蒂分布构造的一个概率分布，这个概率分布的形式是一定的，只不过参数待求，那么，可以将这些形式一定但参数未知的概率分布看着是“所有可能的概率模型”的集合，在这个集合中，找到熵最大的那个模型，也就实现了参数的求解
综上，最大熵原理可以表述为：在满足约束条件的概率模型集合中选取熵最大的模型

那么，如何计算概率模型的熵呢？ $\rightarrow$ 先讨论离散情况

对于某一个随机变量X，它的概率分布为P(X)（即PMF或者说是分布律），它的熵定义为

$H (P) = - \sum i = 1 n P (x i) log P (x i)$ $H(P) = -\sum_{i=1}^nP(x_i)\log{P(x_i)}$
它表述的是随机变量X取得所有可能值 $x_i$ ( $i=1,\cdots,n$ )带来的自信息的数学期望，即表征了该信号带来的信息量！

上面的熵的取值范围是什么呢？

$0 ⩽ H (P) ⩽ log n$ $0 \leqslant H(P) \leqslant \log{n}$
具体推导过程见《最优化理论·拉格朗日Lagrange对偶性的一个实例》
所以，最大熵原理的具体内容或者说是实际使用方法为：
- 根据已有的信息（约束条件），选择适当的概率模型
- 对于那些不确定的部分，认为它们是等可能的，也就实现了最大熵的目的
- 那这个方法如何使用呢？下面给出一个实际的例子：
  - 首先，根据已知条件，可以得到下面的约束：
    
    除此信息外，不再有其他可利用信息，那么，根据最大熵原理（不确定的信息认为其为等可能），则有
  - 如果接下来又添加了一个可用信息
    
    则此时，再根据最大熵原理，可以得到

1.2 最大熵原理的几何意义

下图是所有可能的概率模型空间（用一个2单纯形表示），所有可能的概率空间位于三角形内部
现在加入了两个约束条件，此时的概率空间变小了，变成了图中的5条之间的某个交集围成的区间（由于这里并没有给出两个约束的具体内容，所以这个区间还不能确定，可能是下图中的四个子区间的任何一个）

2 最大熵模型

2.1 到底应该如何表示分类模型？

对于分类问题，它的分类模型可以表示条件概率分布： $P(Y|X)$

例如，对于一个三分类的分类问题，这个分类模型其实就是一个离散型的条件概率分布，每个类别 $Y$ 的概率取值都有一个模型 $P(Y=i|X)$ ，它不是一个具体的取值，而是一个与输入的样本 $X=x$ （ $x$ 为一个特征向量）相关的一个函数：可以认为，该表就是要求解的分类器！！！

可能取值类别1 类别2 类别3

分布律 $P(Y=1|X)$ $P(Y=2|X)$ $P(Y=3|X)$ 通俗理解函数 $p_1(x)$ 函数函数 $p_2(x)$ 函数 $p_3(x)$

再以逻辑斯蒂回归问题的模型 $P(Y|X)$ 为例

可能取值 Y=1 Y=0

概率 $P(Y=1|X)=\frac{\exp(wx)}{1+\exp(wx)}$ $P(Y=0|X)=\frac{1}{1+\exp(wx)}$

通俗理解函数 $p_1(x)$ 是