0. 阅读说明
与LDA紧密相关的必要且最小知识集合为博文的正文。凡是灰色框中的内容为拓展和补充内容,直接跳过并不会影响你的理解。灰色框指的是如下形式的段落:
这是一个灰色框示意段落
这部分内容为补充性内容,直接跳过并不会影响你的理解
1. 前几节的一点小尾巴
在第一节中,我们从二项分布推导Gamma 分布的时候,使用了如下的等式:
P(C≤k)=n!k!(n−k−1)!∫1ptk(1−t)n−k−1dt,C∼B(n,p)
现在大家可以看到,左边是二项分布的概率累积,右边实际上是
β(t|k+1,n−k)
分布的概率积分。这个式子之前并没有给出证明,下面我们进行证明
我们可以如下构造二项分布,取随机变量 看
X1,X2,⋯,Xn∼iidUniform(0,1)
,一个成功的贝努利实验就是
Xi<p
,否则表示失败,于是成功的概率为
p
用于计数成功的次数,于是
显然我们有如下式子成立:
P(C≤k)=P(X(k+1)>p)
此处 X(k+1) 是顺序统计量,为第 k+1 大的数。等式左边表示贝努利实验成功次数最多 k 次,右边表示第
P(C≤k)=P(X(k+1)>p)=∫1pBeta(t|k+1,n−k)dt=n!k!(n−k−1)!∫1ptk(1−t)n−k−1dt
以上证明内容来自:LDA-math-认识Beta/Dirichlet分布(2)
2. Dirichlet分布
2.1 回顾 β 分布
此时 X(k) 的分布即为 β 分布
2.2 Dirichlet分布
此即为Dirichlet分布
2.2.1 Dirichlet分布推导
以下内容来自:
LDA-math-认识Beta/Dirichlet分布(3)
2.2.2 β 分布与Dirichlet分布
β
分布可以看作Dirichlet分布在二维时的特例。