最大熵

最大熵

最大熵方法通常描述为:从所有符合已知知识的分布中选择信息熵最大的分布
主要内容:

  • boltzmann distribution
  • maxmium entropy principle
  • constraint rule
  • approximate

boltzmann distribution

物理学家玻尔兹曼使用过一个例子:
n 个骰子于桌子上,所有骰子出现的点数之和为nα。出现 i 点(i=1,2,,6)的骰子的比例是多大?
要选择一种最可能的比例,可以计算某种比例 (n1,,n6) 对应的投掷方式数。每种投掷方式概率相等,则对应的投掷方式数越多则越可能。一个宏观状态 (n1,,n6) 对应 (nn1,,n6) 种微观状态,每个微观状态的概率为 16n
在约束条件

i=16ini=nαi=1ni=n
下求 (nn1,,n6) 最大值。
利用斯特林公式, n!=(ne)n ,可以得到:
(nn1,,n6)(ne)n6i=1(nie)ni=enH(nin,,n6n)
所以等价于求熵的最大值。
在总和一定的情况下,某个骰子出现不同点数的概率也是不同的。所有骰子可能的投掷方式越多,可能性越大。它的边缘分布服从boltzmann分布。

maxmium entropy principle

Jaynes改变了原始含义,希望根据”least biased”推测概率分布。
定义变量 x 可能取值xi(i=1,2,,n)。我们并不知道每个值对应的概率 pi ,只知道函数 f(x) 的期望值:

<f(x)>=i=1npif(xi)
<script type="math/tex; mode=display" id="MathJax-Element-19"> =\sum_{i=1}^np_if(x_i)</script>
在这些信息的基础上,如何求出某个函数 g(x) 的期望值?这个问题看上去解不出来。因为信息不够充分,解不出 pi 。再加上一个归一化约束
i=1npi=1
还需要再补充 n2 个条件才行。

在较少的信息下确定概率是一个古老的问题。Laplace的”Principle of Insufficient Reason”给出了一个选择标准:两个事件在没有其他信息的情况下应该分配相等的概率。然而,除了满足对称性外,这个标准看起来没什么依据。

我们的问题是找到概率分布,它需要满足已知的信息,并且满足无偏原则。信息论提供了衡量不确定性的标准,我们可以在满足已知信息的条件下,让信息熵最大化,对未知信息做最少的假设

在分布符合指数分布族时,极大似然估计的样本均值满足期望,这时最大熵分布和极大似然估计得到的结果一致。
如果在已知一些函数 f1(x),fm(x) 的期望下,使用指数分布族,可以得到如下形式

pβ1βm(x)=eβ1f1(x)βmfm(x)Z(β1,,βm)
把它看作抽样分布,包含参数 β 为Lagrange乘子。选择一个特定的分布,就相当于估计一组参数 β
N 组独立重复实验中获得结果x⃗ =(x1,,xN) ,得到似然函数
Lx⃗ (β1,,βm):=pβ1βm(x⃗ )

求似然函数极大值,让导数为0得到等式:
f¯k:=1Nj=1Nfk(xj)=βklogZ(β1,,βm)
由于
Z(β1,,βm)=xeβ1f1(x)βmfm(x)
可以得到
βklogZ(β1,,βm)=xfk(x)pβ1βm(x)=<fk>β1βm

constraint rule

最大熵原则的约束条件是有争议的,为什么让 f¯=<f> 呢?上面只是证明了在指数分布族前提下这样符合极大似然估计,但是别的情况呢?
如果把 f 换成 f1 ,约束条件变成 f1¯¯¯¯¯=<f1> , 不也可以吗?但是这样会得到不同的分布。
看一个掷骰子的例子。假设掷了 N 次,点数为i 的情况出现了 Ni 次,让 ni=NiN ,并且

iini=3.5

通过最大熵,显然骰子是均匀的, pi=16
但是通过贝叶斯方法,结果却不同,并且随着 N 的增加,差距也越来越大。
假设先验分布是均匀分布
φ(p1,,p6)=5!δ(ipi1)
其中 pi0,i=1,,6 δ 是狄拉克 δ 函数。

然后是似然函数

P(N1,,N6|p1,p6)=N!N1!N6!pN11pN66

P(N1,,N6)=P(N1,,N6|p1,,p6)φ(p1,,p6)dp1p6=5!N!(N+5)!

得到后验概率
φ(p1,,p6|N1,,N6)=P(N1,,N6|p1,,p6)φ(p1,,p6)P(N1,,N6)=(N+5)!N1!N6!pN11pN66δ(ipi1)

P(iN+1=i|N1,,N6)=piφ(p1,,p6|N1,,N6)dp1p6=Ni+1N+6

1NiiNi=a
P(xN+1=i|1NiiNi=a)=P(xN+1=i|N1,,N6)P(N1,,N6)P(1NiiNi=a)=(Ni+1)6k=1(Nk+1)

这个式子不太容易看出来分布规律,可以列一张表

p p1=p6 p2=p5 p3=p4
N=2 0.1667 0.1667 0.1667
N=4 0.1500 0.1667 0.1833
N=20 0.1440 0.1658 0.1901
N=30 0.1432 0.1658 0.1909
N=60 0.1423 0.1658 0.1919

可以看到,随着 N 的增加,骰子会更偏向3和4

approximate

最大熵常常作为一种近似方法。
X1,,Xn是i.i.d.且服从分布 Q(x) 。定义集合E

E={P:aP(a)gj(a)αj,j=1,,k}

为在 E 中找到最接近于Q的分布,可以求 D(PQ) 的最小值。利用拉格朗日乘子法,构造泛函:

J(P)=xP(x)logP(x)Q(x)+iλixP(x)gi(x)+υxP(x)

对其求微分,可以计算出最接近于 Q 的分布具有形式

P(x)=Q(x)eiλigi(x)aχQ(a)eiλigi(a)

其中 λi 根据满足约束条件确定。
Q 是均匀的,则P是最大熵分布。

参考的资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值