2.3 Dirichlet-Multinomial 共轭
对于魔鬼变本加厉的新的游戏规则,数学形式化如下:
- X1,X2,⋯,Xn∼iidUniform(0,1) ,
- 排序后对应的顺序统计量 X(1),X(2),⋯,X(n) ,
- 问 (X(k1),X(k1+k2)) 的联合分布是什么;
游戏3
完全类似于第一个游戏的推导过程,我们可以进行如下的概率计算(为了数学公式的简洁对称,我们取
x3
满足
x1+x2+x3=1
,但只有
x1,x2
是变量)
于是我们得到 (X(k1),X(k1+k2)) 的联合分布是
熟悉 Dirichlet的同学一眼就可以看出,上面这个分布其实就是3维形式的 Dirichlet 分布 Dir(x1,x2,x3|k1,k2,n−k1−k2+1) 。令 α1=k1,α2=k2,α3=n−k1−k2+1 ,于是分布密度可以写为
这个就是一般形式的3维 Dirichlet 分布,即便 α→=(α1,α2,α3) 延拓到非负实数集合,以上概率分布也是良定义的。
从形式上我们也能看出,Dirichlet 分布是Beta 分布在高维度上的推广,他和Beta 分布一样也是一个百变星君,密度函数可以展现出多种形态。
类似于魔鬼的游戏2,我们也可以调整一下游戏3,从魔盒中生成 m 个随机数 Y1,Y2,⋯,Ym∼iidUniform(0,1) 并让魔鬼告诉我们 Yi 和 (X(k1),X(k1+k2)) 相比谁大谁小。于是有如下游戏4
- X1,X2,⋯,Xn∼iidUniform(0,1) ,排序后对应的顺序统计量 X(1),X(2),⋯,X(n)
- 令 p1=X(k1),p2=X(k1+k2),p3=1−p1−p2 (加上 p3 是为了数学表达简洁对称),我们要猜测 p→=(p1,p2,p3) ;
- Y1,Y2,⋯,Ym∼iidUniform(0,1) , Yi 中落到 [0,p1),[p1,p2),[p2,1] 三个区间的个数分别为 m1,m2,m3 , m=m1+m2+m3 ;
- 问后验分布 P(p→|Y1,Y2,⋯,Ym) 的分布是什么。
游戏4
为了方便,我们记
由游戏中的信息,我们可以推理得到 p1,p2 在 X1,X2,⋯,Xn, Y1,Y2,⋯,Ym ∼iidUniform(0,1) 这 m+n 个数中分别成为了第 k1+m1,k2+m2 大的数,于是后验分布 P(p→|Y1,Y2,⋯,Ym) 应该是 Dir(p→|k1+m1,k1+m2,n−k1−k2+1+m3) ,即 Dir(p→|k→+m→) 。按照贝叶斯推理的逻辑,我们同样可以把以上过程整理如下:
- 我们要猜测参数 p→=(p1,p2,p3) ,其先验分布为 Dir(p→|k→) ;
- 数据 Yi 落到 [0,p1),[p1,p2),[p2,1] 三个区间的个数分别为 m1,m2,m3 ,所以 m→=(m1,m2,m3) 服从多项分布 Mult(m→|p→)
- 在给定了来自数据提供的知识 m→ 后, p→ 的后验分布变为 Dir(p→|k→+m→)
贝叶斯推理过程
以上贝叶斯分析过程的简单直观的表述就是
令 α→=k→ ,把 α→ 从整数集合延拓到实数集合,更一般的可以证明有如下关系
以上式子实际上描述的就是 Dirichlet-Multinomial 共轭,而我们从以上过程可以看到,Dirichlet 分布中的参数 α→ 都可以理解为物理计数。类似于 Beta 分布,我们也可以把 Dir(p→|α→) 作如下分解
此处 1→=(1,1,⋯,1) 。自然,上式我们也可以类似地用纯粹贝叶斯的观点进行推导和解释。
以上的游戏我们还可以往更高的维度上继续推,譬如猜测
X(1),X(2),⋯,X(n)
中的4、5、…等更多个数,于是就得到更高纬度的 Dirichlet 分布和 Dirichlet-Multinomial 共轭。一般形式的 Dirichlet 分布定义如下
对于给定的 p→ 和 N ,多项分布定义为
而 Mult(n→|p→,N) 和 Dir(p→|α→) 这两个分布是共轭关系。
Beta-Binomail 共轭和 Dirichlet-Multinomail 共轭都可以用纯粹数学的方式进行证明,我们在这两个小节中通过一个游戏来解释这两个共轭关系,主要是想说明这个共轭关系是可以对应到很具体的概率物理过程的。
2.4 Beta/Dirichlet 分布的一个性质
如果
p∼Beta(t|α,β)
, 则
上式右边的积分对应到概率分布 Beta(t|α+1,β) ,对于这个分布,我们有
把上式带入 E(p) 的计算式,得到
这说明,对于Beta 分布的随机变量,其均值可以用 αα+β 来估计。Dirichlet 分布也有类似的结论,如果 p→∼Dir(t→|α→) ,同样可以证明
以上两个结论很重要,因为我们在后面的 LDA 数学推导中需要使用这个结论。