前言
此博客是个人LDA学习总结中的一篇。用来记录LDA数学八卦的阅读笔记。
文章目录
一 、神奇的Gamma函数
Gamma函数 Γ ( x ) \Gamma(x) Γ(x)形式复杂,起源于哥德巴赫对 n ! n! n!数列插值的研究。并且为了使得 B e t a Beta Beta函数表示简便,使得 Γ ( n ) = ( n − 1 ) ! \Gamma(n) = (n-1)! Γ(n)=(n−1)!。
Gamma函数具有很大的魅力。比如(1) 由它定义了分数阶导数。(2)它和黎曼函数有联系。(3)它和欧拉常数有联系。等等
Gamma分布与泊松分布、二项分布、Beta分布有重要联系。我们可以通过:(1)二项分布和Beta分布关系恒等式。(2)二项分布的极限是泊松分布。进而推出Gamma分布。
该节的重要知识点关系可由下图表示:
二、认识Beta/Dirichlet分布
作者在此小结构造了4个游戏。深入浅出讲解了Beta分布和Dirichlet分布。
四个游戏分别为:
1、Beta分布游戏
经过推导,我们得到分布为
f
(
X
(
k
)
)
=
B
e
t
a
(
X
(
k
)
∣
α
,
β
)
=
Γ
(
α
+
β
)
Γ
(
α
)
+
Γ
(
β
)
x
α
−
1
(
1
−
x
)
β
−
1
f(X_{(k)})=Beta(X_{(k)}|\alpha, \beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)+\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}
f(X(k))=Beta(X(k)∣α,β)=Γ(α)+Γ(β)Γ(α+β)xα−1(1−x)β−1
参数 α , β \alpha, \beta α,β的物理意义是伪计数,如下图所示:
- α = k \alpha=k α=k: 落在 [ 0 , x ) [0, x) [0,x)区域的数的个数加一。
- β = n − k + 1 \beta=n-k+1 β=n−k+1: 落在( x + Δ x , 1 ] x+\Delta x, 1] x+Δx,1]的数的个数加一。
B e t a ( X a ∣ α , β ) Beta(X_a|\alpha, \beta) Beta(Xa∣α,β)分布的物理意义:从 U n i f o r m ( 0 , 1 ) Uniform(0,1) Uniform(0,1)中采样 α + β − 1 \alpha+\beta-1 α+β−1个数,第 α \alpha α大数所在位置 X 1 X_1 X1的分布。
根据 B e t a ( k , n − k + 1 ) Beta(k, n-k+1) Beta(k,n−k+1)分布的物理含义,我们也很容易证明二项分布的重要恒等式:
2、Beta-Binomial共轭分布游戏
将这个游戏还原为第一个游戏,易求出分布:
P ( X ( k ) ∣ Y 1 , Y 2 , . . . , Y m ) = B e t a ( X ( k ) ∣ α + m 1 , β + m 2 ) P(X_{(k)}|Y_1, Y_2, ..., Y_m)=Beta(X_{(k)}|\alpha+m_1, \beta+m_2) P(X(k)∣Y1,Y2,...,Ym)=Beta(X(k)∣α+m1,β+m2)
这也引出Beta-Binomial共轭:
B e t a ( X ∣ α , β ) + B i n o m C o u n t ( m 1 , m 2 ) = B e t a ( X ∣ α + m 1 , β + m 2 ) Beta(X|\alpha, \beta)+BinomCount(m_1, m_2) = Beta(X|\alpha+m_1, \beta+m_2) Beta(X∣α,β)+BinomCount(m1,m2)=Beta(X∣α+m1,β+m2)
即:(1)先验分布为Beta分布。(2)数据分布为二项分布。 则后验分布为Beta分布。
3、Dirichlet分布游戏
经过推导,我们可以得到
(
X
(
k
1
)
,
X
(
k
1
+
k
2
)
)
(X_{(k_1)}, X_{(k_1+k_2)})
(X(k1),X(k1+k2))的联合分布等价为:
f ( x 1 , x 2 , x 3 ) = D i r ( x 1 , x 2 , x 3 ∣ α 1 , α 2 , α 3 ) = Γ ( α 1 + α 2 + α 3 ) Γ ( α 1 ) Γ ( α 2 ) Γ ( α 3 ) x 1 α 1 − 1 x 2 α 2 − 1 x 3 α 3 − 1 f(x_1, x_2, x_3) = Dir(x_1, x_2, x_3|\alpha_1, \alpha_2, \alpha_3)=\frac{\Gamma({\alpha_1+\alpha_2+\alpha_3})}{\Gamma(\alpha_1)\Gamma(\alpha_2)\Gamma(\alpha_3)}x_1^{\alpha_1-1}x_2^{\alpha_2-1}x_3^{\alpha_3-1} f(x1,x2,x3)=Dir(x1,x2,x3∣α1,α2,α3)=Γ(α1)Γ(α2)Γ(α3)Γ(α1+α2+α3)x1α1−1x2α2−1x3α3−1
其中: x 1 + x 2 + x 3 = 1 x_1 + x_2 + x_3 = 1 x1+x2+x3=1. 引入 x 3 x_3 x3是为了表达式方便, 3维狄利克雷分布参数 x \mathbf{x} x存在于2维单纯性上。
同样 α 1 , α 2 , α 3 \alpha_1, \alpha_2, \alpha_3 α1,α2,α3。物理意义为伪计数,如下图所示:
- α 1 = k 1 \alpha_1=k_1 α1=k1: 落在[0, x_1)区域的数的个数加一。
- α 2 = k 2 \alpha_2=k_2 α2=k2: 落在 [ x 1 + Δ x , x 1 + Δ x + x 2 ) [x_1+\Delta x, x_1+\Delta x + x_2) [x1+Δx,x1+Δx+x2)区域的数的个数加一。
- α 3 = n − k 1 − k 2 + 1 \alpha_3=n-k_1-k_2+1 α3=n−k1−k2+1: 落在 [ 1 − x 3 , 1 ] [1-x_3, 1] [1−x3,1]区域的数的个数加一。
D i r i c h l e t ( X 1 , X 2 , X 3 ∣ α 1 , α 2 , α 3 ) Dirichlet(X_1, X_2, X_3 | \alpha_1, \alpha_2, \alpha_3) Dirichlet(X1,X2,X3∣α1,α2,α3)的物理意义: 从 U n i f o r m ( 0 , 1 ) Uniform(0,1) Uniform(0,1)中采样 α 1 + α 2 + α 3 − 1 \alpha_1+\alpha_2+\alpha_3-1 α1+α2+α3−1个数,以第 a 1 a_1 a1大数和第 a 1 + a 2 a_1+a_2 a1+a2大的两个数为分割点将[0,1]分割为3段。前两条线段长度 X 1 , X 2 X_1, X_2 X1,X2的联合分布。
4、Dirichlet-Multinomail共轭游戏
注: 原文 p p p的意义应该定义错了,其定义的是位置,应该是线段长度才对。
同样,将这个游戏还原为第3个游戏,易求出分布为:
P ( p → ∣ Y 1 , Y 2 , . . . , Y m ) = D i r i c h l e t ( p → ∣ α 1 + m 1 , α 2 + m 2 , α 3 + m 3 ) P(\overrightarrow{p}|Y_1, Y_2, ... ,Y_m)=Dirichlet(\overrightarrow{p} | \alpha_1+m_1, \alpha_2+m_2, \alpha_3+m_3) P(p∣Y1,Y2,...,Ym)=Dirichlet(p∣α1+m1,α2+m2,α3+m3)
这引出了Dirichlet-Multinomial共轭
即:(1)先验为狄利克雷分布:
(2)数据分布为多项分布:
则后验同样为狄利克雷分布。
5、期望估计
对
D
i
r
(
p
→
∣
α
→
)
Dir(\overrightarrow{p}|\overrightarrow{\alpha})
Dir(p∣α), 期望为:
这从物理意义上也很好理解,
p
i
p_i
pi表示每一段的长度,
α
i
\alpha_i
αi为落在该段的数的个数,自然是正比关系。
三、MCMC和Gibbs Sampling
该节说明了如何进行非常见分布的采样, 结合代码理解: