最大熵模型由最大熵原理推导实现。
1.最大熵原理
最大熵原理是概率模型学习中的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型中,熵最大的模型时最好的模型,通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散随机变量X的概率分布时P(X),则其熵是
熵满足一列不等式:
式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。这就是说,当X服从均匀分布时,熵最大。
直观地,最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。“等可能”不容易操作,而熵则是一个可优化的数值指标。
通过一个简单的例子来介绍一个最大熵原理
2.最大熵模型的定义
最大熵原理时统计学习的一般原理,将它应用到分类得到最大熵模型
在这里对上面的特征函数做一个说明,这里说的特征函数并不是数学中所有的特征函数,这里的特征函数更应该叫做指示函数,用来表征x和y的一组组合,这组合中的x和y之间存在一个相同的关系。数学中的特征函数具体定义为(https://baike.baidu.com/item/%E7%89%B9%E5%BE%81%E5%87%BD%E6%95%B0/5126430?fr=aladdin)
接下来,定义模型的约束条件
关于(6.10)和(6.11)更通俗的理解(参考链接https://zhuanlan.zhihu.com/p/234442747):
最后,最大熵模型的定义为:
最后想说明的一点是:
统计学中的特征函数和概率分布一一对应,这个原因是因为,特征函数是概率密度的傅里叶变换的共轭复数,如下图所示。
特征函数的泰勒公式展开后可以看到其可以求出各阶距,具体参考下图和链接(https://www.zhihu.com/question/23686709)
换句话说,概率分布可以由各阶中心距来决定,因此我们可以用各阶矩相等来表征真实分布和经验分布相等。从而可以解决下面的问题1
问题1:为什么让期望值相等就可以表征真实分布和经验分布相等,即6.11:
最大熵本质是伯努利分布,而通过计算伯努利分布的各阶中心距可以发现其都等于均值,因此只需要让期望值相等,就可以表征真实分布和经验分布相等。