最大熵
最大熵方法通常描述为:从所有符合已知知识的分布中选择信息熵最大的分布
主要内容:
- boltzmann distribution
- maxmium entropy principle
- constraint rule
- approximate
boltzmann distribution
物理学家玻尔兹曼使用过一个例子:
掷
n
个骰子于桌子上,所有骰子出现的点数之和为
要选择一种最可能的比例,可以计算某种比例
(n1,⋯,n6)
对应的投掷方式数。每种投掷方式概率相等,则对应的投掷方式数越多则越可能。一个宏观状态
(n1,⋯,n6)
对应
(nn1,⋯,n6)
种微观状态,每个微观状态的概率为
16n
。
在约束条件
利用斯特林公式, n!=(ne)n ,可以得到:
在总和一定的情况下,某个骰子出现不同点数的概率也是不同的。所有骰子可能的投掷方式越多,可能性越大。它的边缘分布服从boltzmann分布。
maxmium entropy principle
Jaynes改变了原始含义,希望根据”least biased”推测概率分布。
定义变量
x
可能取值
在这些信息的基础上,如何求出某个函数 g(x) 的期望值?这个问题看上去解不出来。因为信息不够充分,解不出 pi 。再加上一个归一化约束
在较少的信息下确定概率是一个古老的问题。Laplace的”Principle of Insufficient Reason”给出了一个选择标准:两个事件在没有其他信息的情况下应该分配相等的概率。然而,除了满足对称性外,这个标准看起来没什么依据。
我们的问题是找到概率分布,它需要满足已知的信息,并且满足无偏原则。信息论提供了衡量不确定性的标准,我们可以在满足已知信息的条件下,让信息熵最大化,对未知信息做最少的假设。
在分布符合指数分布族时,极大似然估计的样本均值满足期望,这时最大熵分布和极大似然估计得到的结果一致。
如果在已知一些函数
f1(x),⋯fm(x)
的期望下,使用指数分布族,可以得到如下形式
在 N 组独立重复实验中获得结果
求似然函数极大值,让导数为0得到等式:
constraint rule
最大熵原则的约束条件是有争议的,为什么让
f¯=<f>
呢?上面只是证明了在指数分布族前提下这样符合极大似然估计,但是别的情况呢?
如果把
f
换成
看一个掷骰子的例子。假设掷了
N
次,点数为
通过最大熵,显然骰子是均匀的, pi=16
但是通过贝叶斯方法,结果却不同,并且随着 N 的增加,差距也越来越大。
假设先验分布是均匀分布
然后是似然函数
得到后验概率
当 1N∑iiNi=a 时
这个式子不太容易看出来分布规律,可以列一张表
p | p1=p6 | p2=p5 | p3=p4 |
---|---|---|---|
N=2 | 0.1667 | 0.1667 | 0.1667 |
N=4 | 0.1500 | 0.1667 | 0.1833 |
N=20 | 0.1440 | 0.1658 | 0.1901 |
N=30 | 0.1432 | 0.1658 | 0.1909 |
N=60 | 0.1423 | 0.1658 | 0.1919 |
可以看到,随着 N 的增加,骰子会更偏向3和4
approximate
最大熵常常作为一种近似方法。
若
为在
E
中找到最接近于
对其求微分,可以计算出最接近于 Q 的分布具有形式
其中 λi 根据满足约束条件确定。
若 Q 是均匀的,则
参考的资料
- http://bactra.org/notebooks/max-ent.html
- 信息论基础
- Jaynes Information Theory And Statistical Mechanics I
- The Constraint Rule of the Maximum Entropy Principle