一、最大熵原理
最大熵模型可由最大熵原理推出,最大熵原理是概率模型学习的一个准则。最大熵原理认为在满足已有事实的所有可能的概率模型中,熵最大的模型是最好的模型。
|X|是X的取值个数,上式表明当且仅当X的分布是均匀分布时右边的等号成立,当X服从均匀分布时,熵最大。
二、最大熵模型定义
两个步骤
- 找出满足已有约束条件的概率模型
- 从中寻找熵最大的模型
给定数据集,考虑模型满足的条件,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布,用下列式子表示。
v(X=x,Y=y)表示训练数据样本(x,y)出现的频数,N表示样本容量。
用特征函数描述输入与输出的一个事实,当x,y满足这个事实时取值为1,否则为0。特征函数就是先验知识,会有n个