最大熵原理
学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。
假设离散随机变量 X X 的概率分布是
, 则其熵为
H(P)=−∑xP(x)logP(x) H ( P ) = − ∑ x P ( x ) log P ( x )
且满足如下不等式:
0≤H(P)≤log|X| 0 ≤ H ( P ) ≤ log | X |
式中, |X| | X | 是 X X 的取值个数,当且仅当 的分布是均匀分布时,右边等号成立,即当 X X 服从均匀分布时,熵最大。
最大熵原理可简述为按照满足约束条件下求等概率的方法估计概率分布。
最大熵模型
1.最大熵模型是由以下条件概率分布表示的分类模型,可用于二类或多分类问题。
Zw(x)=∑yexp(∑i=1nwifi(x,y)) Z w ( x ) = ∑ y exp ( ∑ i = 1 n w i f i ( x , y ) )
其中, Zw(x) Z w ( x ) 是规范化因子; wi w i 是特征权值; fi(x,y) f i ( x , y ) 是特征函数,描述输入 x x 和输出 之间的某一个事实,其定义为
f(x,y)={
1,0,x 与 y 满足某一事实否则 f ( x , y ) = { 1 , x 与 y 满足某一事实 0 , 否则
这是一个二值函数。
2.对于给定的训练集 T={ (x1,y1),(x<