最大熵模型-CSDN博客

本文链接：https://blog.csdn.net/watermelon12138/article/details/88989874

一、最大熵原理

最大熵原理是概率模型学习的一个准则。通常通过约束条件确定符合条件的概率模型集合，最大熵原理认为在所有符合条件的概率模型中熵最大的模型是最好的。
假设随机变量X的概率分布是P(X)，则该随机变量X分布的熵为：
在这里插入图片描述
熵满足下列不等式：

其中，|X|是随机变量X的取值个数，当且仅当X服从均匀分布时，右边的等号成立，也就是说X服从均匀分布时熵最大。熵本来就是用来度量物体的混乱程度，X服从均匀分布时X的取值最多，所以熵最大。
上面的式子很好推，假设随机变量X的取值有K个，当X服从均匀分布时，每种取值的概率都是1/K，即P(x)=1/K，则H( P ) = log K -log 1 <= log K。
直观的说，最大熵模型认为选择的模型必须满足给定的约束条件，接着在得不到更多信息的情况下认为那些不确定性都是等可能的。'等可能’不方便操作，但是熵是一个数值，它可以作为优化指标，熵最大的时候认为那些不确定性都是等可能的。

例子：
假设随机变量X有5个取值{A，Ｂ，Ｃ，Ｄ，Ｅ}，现在估计每个取值的概率
Ｐ(A),P(B),P( C),P(D),P(E)。
解：
隐含的约束条件：P(A) + P(B) + P( C) + P(D) + P(E) = 1
由约束条件可知满足该约束条件的概率模型有无数多个，但是最大熵模型选择熵最大的模型，即认为每种取值都是等概率的，所以得到：
Ｐ(A) = P(B) = P( C) = P(D) = P(E) = 1/5。
如果添加另一条约束条件：P(A) + P(B) = 3/10
那么概率模型必须满足P(A) + P(B) = 3/10和P(C ) + P(D) + P(E) = 7/10这两个约束，满足这两个约束的模型仍然很多，但最大熵模型认为此时P(A) 和P(B)是等概率的，P( C) 、P(D)和P(E)是等概率的，因为在得不到更多信息的情况下这样计算的熵最大。
所以得到：
P(A) = P(B) = 3/20
P(C ) = P(D) = P(E) = 7/30
继续按照满足约束条件计算等概率的方法来估计概率分布就是遵循了最大熵模型。

二、最大熵模型的定义

最大熵原理是统计学的一般原理，将它应用到分类可得到最大熵模型。
假设分类模型是一个条件概率分布P(Y|X)，其中X表示输入，Y表示输出，对于X的每个取值取其最大的P(Y|X)对应的Y作为它的类别。
给定一个训练数据集T = {(x₁, y₁), (x₂, y₂), … , (x_N, y_N)}，这时可以确定联合分布P(X, Y)和边缘分布P(X)的经验分布如下：
在这里插入图片描述
其中v(X=x, Y=y)表示训练数据集中(x, y)出现的频数，v(X=x)表示训练数据集中x出现的频数，N表示是训练数据集样本总数。
引入特征函数f(x, y),它是一个二值函数，当x与y满足某个事实(约束条件)时它的值取1，否则它的值取0。
在这里插入图片描述
接下来根据联合分布P(X, Y)的经验分布我们算出训练数据集中满足约束条件的样本的概率：

根据边缘分布P(X)的经验分布和模型P(Y|X)计算训练数据集中满足约束条件的样本的概率：

可见如果模型的预测性能好的话这两个概率应该是相等的，即
在这里插入图片描述
上式就作为模型学习的约束条件。假如训练集本身包含n个约束，那么就有n个特征函数，也就得到模型学习的n个约束条件。

满足上述模型学习的所有约束条件的模型其实有很多，但根据最大熵原理我们要选择熵最大模型，分类模型P(Y|X)的条件熵可以如下计算：
在这里插入图片描述
详细化简步骤见这里 [https://blog.csdn.net/watermelon12138/article/details/83960049]

综上所述得到最大熵模型的定义：
(1)假设满足所有约束条件的模型集合为：
在这里插入图片描述
(2)定义在模型P(Y|X)上的熵为：

则模型集合C中H( P )最大的就是最大熵模型。

三、最大熵模型的学习

最大熵模型的学习过程转换为约束的最优化问题。
给定数据集T = {(x₁, y₁), (x₂, y₂), … , (x_N, y_N)}以及特征函数 f _i(x, y), i =1, 2, …, n，最大熵模型等价于约束最优化问题：
在这里插入图片描述
最优化问题一般会把求最大值问题化为等价的求最小值问题：

对于有目标表达式和诸多约束条件的问题，当然想到的就是拉格朗日乘子法，引进拉格朗日乘子w₀,w₁,w₂,…,w_n先定义拉格朗日函L(P,w)如下：
在这里插入图片描述
你可以先去这里了解拉格朗日乘子法、对偶问题以及KKT条件

原始问题：
在这里插入图片描述
对偶问题是：

首先，求对偶问题的内部极小化问题，即

求L(P,w)对P(y|x)的偏导数：

令偏导数等于0，在P(X)的经验分布大于0的情况下可得：

因为

所以P(y|x)可以化简为：

其中，Z_w(x)是规范化因子，f_i(x,y)是特征函数，P_w(y|x)就是对偶问题的内部极小化问题的最优解，就是求得的最大熵模型，w是最大熵模型的参数。
接着，求对偶问题的外部极大化问题，即
在这里插入图片描述
与内部极小化问题的求解方式一样，可以通过求偏导，假设求得的最优解为w^*, 将w^*带入P_w(y|x)，那么最终的最优化模型(最大熵模型)就是：