一、最大熵原理
最大熵原理是概率模型学习的一个准则。最大熵原理认为,在学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵模型也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散型随机变量
X
的概率分布式
H(P)=−∑xP(x)logP(x)
熵满足下列不等式:
0≤H(P)≤log|x|
式中, |X| 是 X 取值个数,当且仅当
二、最大熵模型的定义
假设分类模型是一个条件概率分布
给定一个训练数据集
学习的目标是用最大熵原理选择最好的分类模型。
对于给定的数据集,我们可以确定联合分布的经验分布和边缘分布的经验分布。用特征函数 f(x,y) 描述 x,y 之间的一个事实,即:
f(x,y)={1,0,x与y满足某一事实否则
特征函数
f(x,y)
关于经验分布
P˜(X,Y)
的期望值, 用
Ep¯(f)
表示。
Ep¯(f)=∑x,yP˜(x,y)f(x,y)
特征函数
f(x,y)
关于模型
P(Y|X)
与经验分布
P˜(X)
的期望值, 用
Ep(f)
表示
Ep(f)=∑x,yP˜(x)P˜(y|x)f(x,y)
如果模型可以获得训练数据中的信息, 我们就可以假设这两个期望相等:
Ep¯(f)=Ep(f)
定义(最大熵模型) 假设满足所有约束条件的模型集合为
C≡{P∈P|Ep¯(fi)=Ep(fi),i=1,2…,n}
定义在条件概率分布 P(Y|X) 上的条件熵为:
H(P)=−∑x,yP˜(x)P(y|x)logP(y|x)
则模型集合 C 中条件熵 H(P) 最大的模型称为最大熵模型,对数为自然对数。后续将继续给出求解最大熵模型的过程。