共轭分布/共轭先验(conjugate prior):如果先验分布( p(θ) )和似然函数( p(Xθ) )使得先验分布( p(θ) )和后验分布( p(θ|X) )具有相同的形式( Beta(a,b)+B(n,k)=Beta(a+k,b+n−k) ),就称先验分布与似然函数是共轭的(Beta分布与二项分布是共轭的)。
我们首先来看 Beta-Binomial 共轭的形式:
对应于先前的小游戏即为:
我们还是首先回顾之前的两次游戏:
从服从0-1均匀分布的随机数生成器,得到10个数,问第7大的数字为?
我们最终得到的概率分布为:
f(x)=n!(k−1)!(n−k)! x k−1 (1−x) n−k
使用Beta分布进行建模的话(中间涉及神奇的Gamma分布话离散为连续):
Beta(p|α=k,β=n−k+1)=Γ(n+1)Γ(k)Γ(n−k+1)! x k−1 (1−x) n−k
则概率分布为:
f(x)=10!6!3! x 6 (1−x) 3
我们根据该概率分布的峰值取猜测才最有把握;再提供5个数,告知2个数比第七大的数大,3个数比其小,为该第七大的数为多少?
根据beta分布与二项分布成共轭分布可知:
Beta(p|k,n−k+1)+BinomCount(m 1 ,m 2 )=Beta(p|k+m 1 ,n−k+1+m 2 )
则概率分布为:
f(x)=Beta(x|9,7)=15!8!6! x 8 (1−x) 6问题继续升级,此时加大难度,问题升级为:按20下按钮,生成20个随机数,要求你同时猜测第7大和第13大的数?
此时的顺序统计量为: X (1) ,X (2) ,⋯,X (n) ,题目是问( X (k 1 ) ,X (k 1 +k 2 ) )的联合分布(答题的关键在于找到问题对应的数学模型或者往小了说,就是数学基本概念,比如这里的联合分布)?
。。。
我们得到 (X (k 1 ) ,X (k 1 +k 2 ) ) 的联合分布是:
f(x 1 ,x 2 ,x 3 )== n!(k 1 −1)!(k 2 −1)!(n−k 1 −k 2 )! x k 1 −1 1 x k 2 −1 2 x n−k 1 −k 2 3 Γ(n+1)Γ(k 1 )Γ(k 2 )Γ(n−k 1 −k 2 +1) x k 1 −1 1 x k 2 −1 2 x n−k 1 −k 2 3
上面这一分布其实就是三维形式的Dirichlet分布, Dir(x 1 ,x 2 ,x 3 |k 1 ,k 2 ,n−k 1 −k 2 +1) ,简单起见,令 α 1 =k 1 ,α 2 =k 2 ,α 3 =n−k 1 −k 2 +1 ,于是分布密度可以写为:
f(x 1 ,x 2 ,x 3 |α 1 ,α 2 ,α 3 )=Γ(α 1 +α 2 +α 3 )Γ(α 1 )Γ(α 2 )Γ(α 3 ) x α 1 −1 1 x α 2 −1 2 x α 3 −1 3
这就是一般形式的3维的Dirichlet分布,从形式上我们也可看出,Dirichlet分布也是Beta分布在高维度上的推广。
Beta-Binomial共轭:
同理我们可得:
这正是大名鼎鼎的 Dirichlet-MultiNomial共轭 。类似于Beta 分布,我们也可对 Dir(p ⃗ |α ⃗ ) 作如下分解,
对于该游戏,我们还可往更高维度上继续推导,譬如猜测: X (1) ,X (2) ,…,X (n) 中的 4,5… 等更多数,于是得到更高维度的Dirichlet 分布和Dirichlet Multinomial 共轭,也即一般形式的Dirichlet 分布定义如下:
对于给定的 p ⃗ 和 N ,多项式分布为:
Beta和Dirchlet分布的数学期望
如果
p∼Beta(t|α,β)
,则:
又对 Beta(t|α+1,β) 而言:
所以:
对于Beta分布的随机变量,其均值可以用
αα+β
来估计。Dirchlet 也有类似的结论,如果
p ⃗ ∼Dir(t ⃗ |α ⃗ )
,同样可以证明:
该两种分布的数学期望是很重要的结论,会在以后的LDA的数学推导中使用这个结论。