【Basis】狄利克雷分布

最新推荐文章于 2024-03-29 12:55:39 发布

板砖板砖我是兔子

最新推荐文章于 2024-03-29 12:55:39 发布

阅读量4.6k

点赞数 12

分类专栏：概率图模型文章标签：概率论机器学习

本文链接：https://blog.csdn.net/qq_43749398/article/details/121934400

版权

概率图模型专栏收录该内容

5 篇文章 3 订阅

订阅专栏

初次看狄利克雷分布，比较懵，主要是它有很多先行知识，所以我先介绍狄利克雷分布用到的多项式分布、gamma 函数、beta分布，然后再介绍狄利克雷分布。参考文献见文章末。

一、多项式分布 multinomial distribution

1.1 假设 Assumption

1.2 推导 infer

二、伽马函数 Gamma Function

2.1 任务

2.2 证明过程

三、贝塔分布 Beta Distribution

3.1 beta公式推导

3.2 Beta和gamma function之间的关系

四、狄利克雷分布 Dirichlet Distribution

4.1 假设 Assumption

4.2 推导 infer

参考文献

一、多项式分布 multinomial distribution

1.1 假设 Assumption

假设随机变量 $x$ 的状态（state）有 $K$ 种，每种状态记作 $x_{k}$ ，比如当 $x_{k}$ 处于第三种状态时， $x_{3}$ =1，其余都等于0，即： $x_{3}=\left \{ 0,0,1,0,0,0 \right \}$ ，即 $\sum _{k} x_{k} =1$ （1.1）。每种状态的概率是 $\mu _{k}$ ，则 $\sum _{k}\mu _{k}=1$ （1.2）。设 $\mu =\left \{ \mu _{1} ,\mu _{2} ,...,\mu _{K} \right \}_{k=1}^{K}$ 。

1.2 推导 infer

那么，在给定 $\mu$ 的情况下， $x$ 的分布服从：

$P(x|\mu)=\prod _{k=1}^{K}\mu _{k}^{x_{k}}$ （1.3）

这是一个随机变量，假设我们有数据集D,D中观测了N次随机变量x，那么

$P\left ( D|\mu \right )=\prod _{n=1}^{N}\prod _{k=1}^{K} \mu _{k}^{x_{nk}}=\prod _{k=1}^{K} \mu _{k}^{\sum _{n}x_{nk}}$ （1.4）

令 $m_{k} = \sum _{n}x_{nk}$ （1.5），我们可以把 $m_{k}$ 理解为N次观测（observation）中， $x$ 状态为 $k$ 的数量！写出似然率 $p(D|\mu )$ ，我们开始计算极大似然率，以求出唯一不知道的 $\mu$ 。值得注意的是 $\mu$ 本身具有约束条件5.2，所以带有约束条件的极大值问题，我们引入拉格朗日乘子 $\lambda$ （lagrange multiplier）。得到：

$LL(\mu ) = argmax_{\mu }(ln(p(D|\mu ))+\lambda(\sum _{k}\mu _{k}-1)) \\ =argmax_{\mu }(\sum _{k}m_{k}*ln(\mu _{k})+\lambda(\sum _{k}\mu _{k}-1))$ （1.6）

求极值的主要方法简单来说就是求导等于0。上式对 $\mu$ 求偏导，得到：

$\frac{\partial LL(\mu )}{\partial \mu } = \sum _{k}\frac{m_{k}}{\mu _{k}} +\sum _{k}\lambda = 0$ （1.7）

易得， $\mu _{k} = -\frac{m_{k}}{\lambda }$ （1.8）。将该结果 $\mu$ 的约束条件，得到 $\sum _{k} -\frac{m_{k}}{\lambda }=1$ ， $-\frac{\sum_{n} \sum _{k}x_{nk}}{\lambda } =1$ 。由于等式5.1，我们得到 $\lambda =-N$ （1.9）。最终：

$\mu _{k}^{ML} = \frac{m_{k}}{N}$ (1.10)

我们可以理解为，每种状态的概率等于N次观测中出现的占比（大数定理简化）。将最终的多项式分布公式写出来：

$Mult(m_{1},m_{2},...,m_{N}|\mu ,N) =(C_{m_{1}}^{N}\mu_{1} ^{m_{1}})*(C_{m_{2}}^{N-m_{1}}\mu _{2}^{m_{2}})*...*(C_{m_{N}}^{N-m_{1}-m_{2}-...-m_{N-1}}\mu_{N} ^{m_{N}})\\= \left ( _{m_{1},m_{2},...,m_{N}}^{N} \right )\prod _{k=1}^{K}\mu _{k}^{m_{k}}$

其中 $\sum _{k}m_{k} =N$ , $x$ 的分布记作 $x\sim Mult(n,\mu )$ 。

二、伽马函数 Gamma Function

emmm，其实我也不知道伽马函数是干嘛的，但是狄利克雷分布中出现了，找PRML的书看了一下，长得奇奇怪怪的，但是貌似是两个性质比较重要，需要推导一下。先给出伽马公式：

$\Gamma (u)=\int _{0}^{+\infty }x^{u-1}e^{-x}dx$ (2.1)

2.1 任务

利用分部积分法（integration by parts）证明出

① $\Gamma (u+1) =u \Gamma (u)$

② $\Gamma (n+1) = n!$ (阶乘的推广)

③ $\Gamma (1) =1$

④ $\Gamma (\frac{1}{2})=\sqrt{\pi }$

2.2 证明过程

①首先回忆一下分部积分法：

$\int v(x)u'(x)dx = v(x)u(x)-\int u(x)v'(x)dx$ (2.2)

$\Gamma (u+1) = \int _{0}^{+\infty }x^{u}e^{-x}dx$ ，可以设 $v(x) = x^{u},u(x)=-e^{-x}$ ，则 $v'(x)=(u+1)x^{u}$ 。那么：

$\Gamma (u+1)=\left [ -x^{u}e^{-x} \right ]_{0}^{+\infty }-\int _{0}^{+\infty }-(u)e^{-x}x^{u}dx=0+u\int _{0}^{+\infty }x^{u}e^{-x}dx=(u)\Gamma (u)$ （2.3）

② $\Gamma (n+1) = n\Gamma (n)=n(n-1)\Gamma (n-1)=n(n-1)(n-2)\Gamma (n-2)=...=n!$ （2.4）

③ $\Gamma (1)=\int _{0}^{+\infty }x^{1-1}e^{x}dx=0$ （2.5）

④ $\Gamma (\frac{1}{2})=\int _{0}^{+\infty }x^{-\frac{1}{2}}e^{-x}dx$ （2.6），怎么能跟 $\pi$ 联系在一起呢？我们会想到高斯分布中有 $\pi$ ，取 $\mu =0,\sigma =1$ ，有 $f(x)=\frac{1}{\sqrt{2\pi }}e^{-\frac{x^{2}}{2}}$ ，且 $\int _{0}^{+\infty }f(x)=\frac{1}{2}$ 。我们令 $x=\sqrt{2t}$ ，则

$\frac{1}{2}=\int _{0}^{+\infty }\frac{1}{\sqrt{2\pi }}e^{-\frac{2t}{2}}d\sqrt{2t}$ (2.7), $d\sqrt{2t}=(2t)^{-\frac{1}{2}}dt$ 。所以：

$\frac{1}{2}=\frac{1}{2\sqrt{\pi }}\int _{0}^{+\infty }t^{-\frac{1}{2}}e^{-t}dt=\frac{1}{2\sqrt{\pi }}\Gamma (\frac{1}{2})$ (2.8)

所以 $\Gamma (\frac{1}{2})=\sqrt{\pi }$ ，性质④得证。

三、贝塔分布 Beta Distribution

设 $x$ 为连续随机变量，取值范围（interval）为 $\left [ 0,1 \right ]$ ，其概率密度函数（pdf）为：

$p(x) = \left\{\begin{matrix} \frac{1}{B(\alpha ,\beta )}x^{\alpha -1}(1-x)^{\beta -1}&0\leqslant x\leqslant 1 \\ 0& otherwise \end{matrix}\right.$ (3.1)

其中 $s> 0,t> 0$ 。而 $B(s,t)$ 又被定义为

$B(\alpha ,\beta )=\int _{0}^{1}x^{\alpha -1}(1-x)^{\beta -1}dx$ (3.2)

这个公式怎么来的呢？

3.1 beta公式推导

如果随机变量x服从（falls into）参数为n和p的分布，则有：

$p(x)=\binom{n}{x}q^{x}(1-q)^{1-x}$ (3.3)

根据上面的式子，我们构造函数：

$f(q) \propto q^{a}(1-q)^{b}$ (3.4)

为了让这个函数满足分布的基本性质，我们引入一个归一化因子（normalization coefficient）让它从0到1的积分为1。假设为k

那么就有： $\int _{0}^{1}f(q)dq = \int _{0}^{1}kq^{a}(1-q)^{b}dq$ ,得到 $k=\frac{1}{\int _{0}^{1}q^{a}(1-q)^{b}dq}$ (3.5)

令 $\alpha = a+1,\beta =b+1$ ， $B(\alpha ,\beta )=k^{-1}=\int _{0}^{1}q^{\alpha -1}(1-q)^{\beta -1}dq$ ，公式(3.2)得证。

3.2 Beta和gamma function之间的关系

书中指出， $B(s,t) = \frac{\Gamma (s)*\Gamma (t)}{\Gamma (s+t)}$ (3.6)。这是怎么来的呢？

首先，观察公式(3.3)，我们知道 $x\sim Binomial(n,p)$ ，因为概率 $p$ 不确定，其服从 $p\sim U(0,1)$ ,所以为了求 $x$ 的分布，需要对 $p$ 进行积分：

$p(x) = \int _{0}^{1}\binom{n}{x}q^{x}(1-q)^{1-x}dq$ (3.7)

那p(x)等于多少呢？我们引用一个例子，假设我们在一个[0,1]的区间内放一个点，然后在这个点的两边随机取n个点，左边的点数记为x。那么这个案例是符合上式的，我们把这个案例反过来。假设我们先放了n+1个点，那么选择每一个点的概率为 $\frac{1}{n+1}$ 。所以我们可以得到 $p(x)=\frac{1}{n+1}$ (3.8)。

所以有 $p(x) = \int _{0}^{1}\binom{n}{x}q^{x}(1-q)^{1-x}dq= \binom{n}{x}\int _{0}^{1}q^{x}(1-q)^{1-x}dq=\frac{1}{n+1}$ 。

那么 $\int _{0}^{1}q^{x}(1-q)^{1-x}dq=\frac{(n-x)!x!}{(n+1)!}$ (3.9)

令 $x=\alpha -1,n-x = \beta -1$ ,则 $n+1 = \alpha +\beta -1$ 。有

$B(\alpha ,\beta )=\frac{(\alpha -1)!(\beta -1)!)}{(\alpha +\beta -1)!}$ (3.10)

回顾第二部分gamma function第二条性质， $\Gamma (n+1) = n!$ ，所以

$B(\alpha ,\beta )=\frac{\Gamma (\alpha )\Gamma (\beta )}{\Gamma (\alpha +\beta )}$ (3.11)

四、狄利克雷分布 Dirichlet Distribution

首先我们要先了解一下另一个名词，共轭分布 conjugate distribution。在贝叶斯概率理论中，如果后验概率和先验概率满足同一种类型的分布，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。

Beta分布是二项式分布的共轭先验分布，而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。

有了之前的铺垫，狄利克雷分布就可以理解为多维beta分布。

4.1 假设 Assumption

假设随机变量 $x$ 的状态有 $K$ 种，每种状态记作 $x_{k}$ ，比如当 $x_{k}$ 处于第三种状态时， $x_{3}$ =1，其余都等于0，即： $x_{3}=\left \{ 0,0,1,0,0,0 \right \}$ ，即 $\sum _{k} x_{k} =1$ （4.1）。每种状态的概率是 $\mu _{k}$ ，则 $\sum _{k}\mu _{k}=1$ （4.2）。设 $\mu =\left \{ \mu _{1} ,\mu _{2} ,...,\mu _{K} \right \}_{k=1}^{K}$ 。令 $m_{k} = \sum _{n}x_{nk}$ （4.3），我们可以把 $m_{k}$ 理解为N次观测中， $x$ 状态为 $k$ 的数量。

4.2 推导 infer

令 $\alpha_{k}=m_{k}-1$ ,有 $\alpha =\left \{ \alpha _{1} ,\alpha _{2} ,...,\alpha _{K} \right \}_{k=1}^{K}$ 。则

$B(\alpha )=\frac{\prod _{k=1}^{K}\Gamma (\alpha _{i})}{\Gamma (\sum _{k=1}^{K}\alpha _{i})}$ ，则 $Dir(\mu _{k}|\alpha )=\frac{1}{B(\alpha )}\prod _{k=1}^{K}\mu _{k}^{\alpha _{k}-1}$ 。结合公式1.4，那么最终的后验分布 $p(\mu |D,\alpha )\propto p(D|\mu )p(\mu |\alpha )\propto \prod _{k=1}^{K}\mu _{k}^{\alpha _{k}+m_{k}-1}$ (4.4)，依旧服从狄利克雷分布（共轭）。

最终后验分布为

$p(\mu |D,\alpha )=\frac{\Gamma (\alpha _{0}+N)}{\prod _{k=1}^{K}\Gamma (\alpha _{k}+m_{k})}\prod _{k=1}^{K}\mu _{k}^{\alpha _{k}+m_{k}-1}$ （4.5)

参考文献

[1]David Bellot. Learning Probabilistic Graphical Models in R. Packt Publishing, 2016

[2] Christopher M. Bishop. Pattern Recognition and Machine Learning.Springer Science+Business Media, LLC,2006

参考博客：(13条消息) 求n的阶乘的算法框图_你不知道的阶乘与gamma函数_weixin_39684967的博客-CSDN博客https://blog.csdn.net/weixin_39684967/article/details/109980912?utm_source=app&app_version=4.19.0&code=app_1562916241&uLinkId=usr1mkqgl919blen

浅谈狄利克雷分布——Dirichlet Distribution_止于至玄-CSDN博客_狄利克雷分布https://blog.csdn.net/philthinker/article/details/111999552 【统计学进阶知识（一）】深入理解Beta分布：从定义到公式推导 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/69606875