从 Beta-Binomial 共轭到 Dirichlet-Multinomial 共轭

最新推荐文章于 2022-01-06 15:30:15 发布

五道口纳什

最新推荐文章于 2022-01-06 15:30:15 发布

阅读量2.9k

点赞数

分类专栏：概率-统计

本文链接：https://blog.csdn.net/lanchunhui/article/details/50550024

版权

概率-统计专栏收录该内容

74 篇文章 21 订阅

订阅专栏

共轭分布/共轭先验（conjugate prior）：如果先验分布（ $p(\theta)$ ）和似然函数（ $p(X\theta)$ ）使得先验分布（ $p(\theta)$ ）和后验分布（ $p(\theta|X)$ ）具有相同的形式（ $Beta(a,b)+B(n,k)=Beta(a+k,b+n-k)$ ），就称先验分布与似然函数是共轭的（Beta分布与二项分布是共轭的）。

我们首先来看 Beta-Binomial 共轭的形式：

B e t a (p | α, β) + B i n o m C o u n t (m 1, m 2) = B e t a (p | α + m 1, β + m 2)

$Beta(p|\alpha, \beta)+BinomCount(m_1,m_2)=Beta(p|\alpha+m_1,\beta+m_2)$
对应于先前的小游戏即为：

B e t a (p | k, n - k + 1) + B i n o m C o u n t (m 1, m 2) = B e t a (p | k + m 1, n - k + 1 + m 2)

$Beta(p|k,n-k+1)+BinomCount(m_1,m_2)=Beta(p|k+m_1,n-k+1+m_2)$

我们还是首先回顾之前的两次游戏：

从服从0-1均匀分布的随机数生成器，得到10个数，问第7大的数字为？

我们最终得到的概率分布为：

$f (x) = n ! ( k - 1 ) ! ( n - k ) ! x k - 1 (1 - x) n - k$ $f(x)=\frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k}$
使用Beta分布进行建模的话（中间涉及神奇的Gamma分布话离散为连续）：
$B e t a (p | α = k, β = n - k + 1) = Γ ( n + 1 ) Γ ( k ) Γ ( n - k + 1 ) ! x k - 1 (1 - x) n - k$ $Beta(p|\alpha=k,\beta=n-k+1)=\frac{\Gamma(n+1)}{\Gamma(k)\Gamma(n-k+1)!}x^{k-1}(1-x)^{n-k}$
则概率分布为：
$f (x) = 10 ! 6 ! 3 ! x 6 (1 - x) 3$ $f(x)=\frac{10!}{6!3!}x^6(1-x)^3$
我们根据该概率分布的峰值取猜测才最有把握；
再提供5个数，告知2个数比第七大的数大，3个数比其小，为该第七大的数为多少？

根据beta分布与二项分布成共轭分布可知：

$B e t a (p | k, n - k + 1) + B i n o m C o u n t (m 1, m 2) = B e t a (p | k + m 1, n - k + 1 + m 2)$ $Beta(p|k,n-k+1)+BinomCount(m_1,m_2)=Beta(p|k+m_1,n-k+1+m_2)$
则概率分布为：
$f (x) = B e t a (x | 9, 7) = 15 ! 8 ! 6 ! x 8 (1 - x) 6$ $f(x)=Beta(x|9,7)=\frac{15!}{8!6!}x^8(1-x)^6$
问题继续升级，此时加大难度，问题升级为：按20下按钮，生成20个随机数，要求你同时猜测第7大和第13大的数？

此时的顺序统计量为： $X_{(1)},X_{(2)},\cdots,X_{(n)}$ ，题目是问（ $X_{(k_1)},X_{(k_1+k_2)}$ ）的联合分布（答题的关键在于找到问题对应的数学模型或者往小了说，就是数学基本概念，比如这里的联合分布）？
。。。
我们得到 $(X_{(k_1)},X_{(k_1+k_2)})$ 的联合分布是：

$f (x 1, x 2, x 3) = = n ! ( k 1 - 1 ) ! ( k 2 - 1 ) ! ( n - k 1 - k 2 ) ! x k 1 - 1 1 x k 2 - 1 2 x n - k 1 - k 2 3 Γ ( n + 1 ) Γ ( k 1 ) Γ ( k 2 ) Γ ( n - k 1 - k 2 + 1 ) x k 1 - 1 1 x k 2 - 1 2 x n - k 1 - k 2 3$ $\begin{split} f(x_1,x_2,x_3)=&\frac{n!}{(k_1-1)!(k_2-1)!(n-k_1-k_2)!}x_1^{k_1-1}x_2^{k_2-1}x_3^{n-k_1-k_2}\\ =&\frac{\Gamma(n+1)}{\Gamma(k_1)\Gamma(k_2)\Gamma(n-k_1-k_2+1)}x_1^{k_1-1}x_2^{k_2-1}x_3^{n-k_1-k_2} \end{split}$
上面这一分布其实就是三维形式的Dirichlet分布， $Dir(x_1,x_2,x_3|k_1,k_2,n-k_1-k_2+1)$ ，简单起见，令 $\alpha_1=k_1,\alpha_2=k_2,\alpha_3=n-k_1-k_2+1$ ，于是分布密度可以写为：
$f (x 1, x 2, x 3 | α 1, α 2, α 3) = Γ ( α 1 + α 2 + α 3 ) Γ ( α 1 ) Γ ( α 2 ) Γ ( α 3 ) x α 1 - 1 1 x α 2 - 1 2 x α 3 - 1 3$ $f(x_1,x_2,x_3|\alpha_1,\alpha_2,\alpha_3)=\frac{\Gamma(\alpha_1+\alpha_2+\alpha_3)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\Gamma(\alpha_3)}x_1^{\alpha_1-1}x_2^{\alpha_2-1}x_3^{\alpha_3-1}$

这就是一般形式的3维的Dirichlet分布，从形式上我们也可看出，Dirichlet分布也是Beta分布在高维度上的推广。

Beta-Binomial共轭：

B e t a (p | α, β) + B i n o m C o u n t (m 1, m 2) = B e t a (p | α + m 1, β + m 2)

$Beta(p|\alpha,\beta)+BinomCount(m_1,m_2)=Beta(p|\alpha+m_1,\beta+m_2)$
同理我们可得：

D i r (p ⃗ | α ⃗) + M u l t C o u n t (m ⃗) = D i r (p ⃗ | α ⃗ + m ⃗)

$Dir(\vec p|\vec \alpha)+MultCount(\vec m)=Dir(\vec p|\vec \alpha+\vec m)$
这正是大名鼎鼎的 Dirichlet-MultiNomial共轭 。类似于Beta 分布，我们也可对

Dir(p ⃗ |α ⃗ ) $Dir(\vec p|\vec \alpha)$ 作如下分解，

D i r (p ⃗ | 1 ⃗) + M u l t C o u n t (m ⃗ - 1 ⃗) = D i r (p | m ⃗)

$Dir(\vec p|\vec 1)+MultCount(\vec m-\vec 1)=Dir(p|\vec m)$
对于该游戏，我们还可往更高维度上继续推导，譬如猜测：

X (1) ,X (2) ,…,X (n) $X_{(1)},X_{(2)},\ldots,X_{(n)}$ 中的

4,5… $4,5\ldots$ 等更多数，于是得到更高维度的Dirichlet 分布和Dirichlet Multinomial 共轭，也即一般形式的Dirichlet 分布定义如下：

D i r (p ⃗ | α ⃗) = Γ ( \sum K k = 1 α k ) \prod K k = 1 Γ ( α k ) \prod k = 1 K p α k - 1 k

$Dir(\vec p|\vec \alpha)=\frac{\Gamma(\sum_{k=1}^K\alpha_k)}{\prod_{k=1}^K\Gamma(\alpha_k)}\prod_{k=1}^Kp_k^{\alpha_k-1}$
对于给定的

p ⃗ $\vec p$ 和

N $N$ ，多项式分布为：

M u l t (N, p ⃗) = (N n ⃗) \prod k = 1 K p n k k

$Mult(N,\vec p)=\binom{N}{\vec n}\prod_{k=1}^Kp_k^{n_k}$

Beta和Dirchlet分布的数学期望

如果 $p\sim Beta(t|\alpha,\beta)$ ，则：

E (p) = = = \int 10 t \times B e t a (t | α, β) d t \int 10 t \times Γ ( α + β ) Γ ( α ) Γ ( β ) t α - 1 (1 - t) β - 1 d t Γ ( α + β ) Γ ( α ) Γ ( β ) \int 10 t α (1 - t) β - 1 d t

$\begin{split} E(p)=&\int_0^{1}t\times Beta(t|\alpha,\beta)dt\\ =&\int_0^1t\times \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}t^{\alpha-1}(1-t)^{\beta-1}dt\\ =&\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\int_0^1t^\alpha(1-t)^{\beta-1}dt \end{split}$
又对

Beta(t|α+1,β) $Beta(t|\alpha+1,\beta)$ 而言：

\int 10 B e t a (t | α + 1, β) = \int 10 Γ ( α + β + 1 ) Γ ( α + 1 ) Γ ( β ) t α (1 - t) β d t = 1 ⇓ \int 10 t α (1 - t) β - 1 d t = Γ ( α + 1 ) Γ ( β ) Γ ( α + 1 + β )

$\int_0^1Beta(t|\alpha+1,\beta)=\int_0^1\frac{\Gamma(\alpha+\beta+1)}{\Gamma(\alpha+1)\Gamma(\beta)}t^\alpha(1-t)^\beta dt=1\\ \Downarrow\\ \int_0^1t^\alpha(1-t)^{\beta-1}dt=\frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha+1+\beta)}$
所以：

E (p) = Γ ( α + β ) Γ ( α ) Γ ( β ) Γ ( α + 1 ) Γ ( β ) Γ ( α + β + 1 ) = α α + β

$E(p)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha+\beta+1)}=\frac{\alpha}{\alpha+\beta}$

对于Beta分布的随机变量，其均值可以用 $\frac{\alpha}{\alpha+\beta}$ 来估计。Dirchlet 也有类似的结论，如果 $\vec p\sim Dir(\vec t|\vec \alpha)$ ，同样可以证明：

E (p ⃗) = (α 1 \sum K k = 1 α k, α 2 \sum K k = 1 α k, \dots, α K \sum K k = 1 α k)

$E(\vec p)=(\frac{\alpha_1}{\sum_{k=1}^K\alpha_k},\frac{\alpha_2}{\sum_{k=1}^K\alpha_k},\ldots,\frac{\alpha_K}{\sum_{k=1}^K\alpha_k})$
该两种分布的数学期望是很重要的结论，会在以后的LDA的数学推导中使用这个结论。