最大熵原理
最大熵原理认为,学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,最大熵原理可以表述为在满足约束条件的模型集合中选取熵最大的模型
假设离散随机变量X的概率分布式P(X),其熵为:
熵满足下列不等式:
其中,|x|是x的取值个数,当且仅当x的分布式均匀分布时右边的等号成立。i.e. 当X服从均匀分布时,熵最大
直观的,最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,哪些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。等可能不容易操作,熵就是一个可优化的数值指标
例子:
解:首先,这些概率值必然和为1,即:
满足这个约束条件的概率分布有无穷多个,如果没有任何其他信息,仍要对概率分布进行估计,一个办法就是认为这个分布中取各个值的概率是相等的:
如果接下来又添加了一个可用信息 :
满足这两个约束条件的概率分布仍然有无穷多个,在缺少其他信息的情况下,可以认为A与B是等概率的,C,D,E是等概率的,于是:
最大熵模型的定义
假设分类模型是一个条件概率分布P(Y|X),X表示输入,Y 表示输出,这个模型表示的是对于给定的输入X,以条件概率P(Y|X)输出Y,给定一个训练数据集:
其中,N为训练集中样本个数;
学习的目的:利用最大熵原理,选择一个最好的分类模型;例如:二分类问题:得到的分类器P(Y|X),可以使得对于任何给定的样本x∈X,都可以计算得到P(y=1|x)和P(y=0|x)
给定了训练集,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布,分别以和