最大熵模型与逻辑斯蒂回归模型一样,属于对数线性模型,因为推导出的最大熵模型公式满足输入与输出的对数函数成线性关系,如下:
Pw(Y|X)=1Zw(x)exp(∑ni=1wifi(x,y))
其中,
Zw(x)=∑yexp(∑ni=1wifi(x,y))
1、最大熵原理
将最大熵原理使用到具体的应用模型中,就得到了最大熵模型。所以,要了解最大熵模型,首先需要知道最大熵原理。
最大熵原理要求在概率分布中,将使得熵最大的概率分布作为最好的选择。所谓熵,可以理解为系统的不确定程度。熵越大,系统的不确定程度就越高。比如在掷骰子游戏中,在条件未知的情况下,因为无法知道具体是哪一面,其不确定程度程度最高,即熵最大;当加入可能是两点或四点条件后,其不确定性就降低了,因为只有两个选择可以选,这时的熵也就变小了。
下面给出熵的定义:
假设离散随机变量X的概率分布是P(X),则定义熵H(P)为:
H(P)=-
∑xP(x)logP(x)
由熵的定义可知:
0
≤H(P)≤log|X|
式中|X|表示变量X的取值个数。不等式左侧显然成立,右侧证明如下:
H(P)−log|X|=∑xP(x)log1P(x)−∑xP(x)log|X|
=∑xP(x)log1|X|⋅P(x)
由不等式log x≤x-1,上式可变为:
≤∑xP(x)(1|X|⋅P(x)−1)
=∑x(1|X|−P(x))
=∑x1|X