浅谈狄利克雷分布——Dirichlet Distribution

最新推荐文章于 2024-11-30 12:25:15 发布

止于至玄

最新推荐文章于 2024-11-30 12:25:15 发布

阅读量1.6w

点赞数 22

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/philthinker/article/details/111999552

版权

概率论

Machine Learning 专栏收录该内容

23 篇文章

订阅专栏

浅谈狄利克雷分布的概念与简单使用。

文章目录

定义
共轭先验（Conjugate Prior）
狄利克雷过程（Dirichlet Process）

定义

首先介绍基本定义。

二项分布（Binomial Distribution）

进行 $n$ 次独立随机试验，出现结果1的概率是 $p$ ，如果用随机变量 $X$ 表示结果 $1$ 出现的次数，那么：
$\begin{pmatrix} n \\ m \end{pmatrix}p^{m}(1-p)^{n-m},\quad m = 0,1,2,\dots,n$ 如果 $n = 1$ ，那么二项分布等同于伯努利分布（Bernoulli Distribution）。

多项分布（Multinomial Distribution）

下面我们将二项拓展到多项。进行 $n$ 次独立随机试验，每次实验结果有 $k$ 种，其中第 $i$ 种出现的概率为 $p_{i}$ ，第 $i$ 种出现的次数为 $n_{i}$ ，如果用随机变量 $\{X_{1},X_{2},\dots,X_{k}\}$ 表示试验所有可能结果的次数，那么：
$\begin{aligned} P(X_{1}=n_{1},X_{2}=n_{2},\dots,X_{k}=n_{k}) &= \frac{n!}{n_{1}!n_{2}!\cdots n_{k}!}p_{1}^{n_{1}}p_{2}^{n_{2}}\cdots p_{3}^{n_{3}} \\ &=\frac{n!}{\prod_{i=1}^{k}n_{i}!}\prod_{i=1}^{k}p_{i}^{n_{i}} \end{aligned}$ 记作 $X\sim\mathrm{Mult}(n,p)$ 。
如果 $n = 1$ ，那么多项分布等同于类别分布（Categorical Distribution）。可以看出，二项分布是多项分布的特殊情况，而伯努利分布式类别分布的特殊情况。

贝塔分布（Beta Distribution）

以上均是离散随机变量的概率分布，下面考虑连续随机变量的情况。此时我们需要研究概率密度。设 $X$ 为连续随机变量，取值范围为 $[0, 1]$ ，其概率密度函数为：
$\left\{ \begin{aligned} &\frac{1}{B(s,t)}x^{s-1}(1-x)^{t-1}, \quad & 0\leq x\leq 1 \\ &0, & \text{otherwise} \end{aligned} \right.$ 其中 $s > 0, t > 0$ 是参数。贝塔分布表示为 $X\sim\mathrm{Beta}(s,t)$ ，概率密度取值如下图所示。
在这里插入图片描述

贝塔分布是均匀分布的更一般形式。
$B(\cdot)$ 是贝塔函数 $\int_{0}^{1}x^{s-1}(1-x)^{t-1}\mathrm{d}x = \frac{\Gamma(s)\Gamma(t)}{\Gamma(s+t)}, \quad \Gamma(s) \triangleq\int_{0}^{\infty}x^{s-1}e^{-x}\mathrm{d}x, s>0$ $\Gamma(\cdot)$ 是伽马函数。伽马函数具有性质： $\Gamma(s+1) = s\Gamma(s)$ ，且当 $s$ 是自然数时有： $\Gamma(s+1) = s!$ 。此时可以看出，当 $s, t$ 是自然数时 $\frac{(s-1)!(t-1)!}{(s+t-1)!}$ 贝塔函数取值分布如下图所示。
betaFunc

狄利克雷分布（Dirichlet Distribution）

下面我们再扩展到多元连续随机变量。狄利克雷分布是贝塔分布的扩展。定义多元连续随机变量 $\theta = \{\theta_{1},\theta_{2},\dots,\theta_{k}\}$ 的概率密度函数为
$p(\theta|\alpha) = \frac{\Gamma\left( \sum_{i=1}^{k}\alpha_{i} \right)}{\prod_{i=1}^{k}\Gamma(\alpha_{i})}\prod_{i=1}^{k}\theta_{i}^{\alpha_{i}-1},\quad \alpha_{i}>0,\quad i = 1,2,\dots,k$ 其中 $\sum_{i=1}^{k}\theta_{i} = 1, \theta_{i}\geq 0$ ，则称随机变量 $\theta$ 服从参数为 $\alpha$ 的狄利克雷分布，记作 $\theta\sim\mathrm{Dir}(\alpha)$ 。
方便起见，我们定义 $B(\alpha) \triangleq \frac{\prod_{i=1}^{k}\Gamma(\alpha_{i})}{\Gamma\left( \sum_{i=1}^{k}\alpha_{i} \right)}$ 那么狄利克雷分布的概率密度函数可以表示为 $p(\theta|\alpha) = \frac{1}{B(\alpha)}\prod_{i=1}^{k}\theta_{i}^{\alpha_{i}-1}$ $B(\alpha)$ 又称多元贝塔函数或扩展贝塔函数，其积分表示为 $B(\alpha) = \int\prod_{i=1}^{k}\theta_{i}^{\alpha_{i} - 1}\mathrm{d}\theta$

共轭先验（Conjugate Prior）

共轭分布常在贝叶斯学习中使用，共轭分布的好处是便于从先验分布计算后验分布。如果后验分布与先验分布属于同类，则先验分布于后验分布成为共轭分布，先验分布成为共轭先验。狄利克雷分布属于指数分布族，常作为多项分布的共轭先验分布使用。作为共轭先验的狄利克雷分布的参数被成为超参数。

假设随机变量 $X$ 服从集合 $W=\{w_{1},w_{2},\dots,w_{k}\}$ 上的多项分布，即 $X\sim \mathrm{Mult}(n,\theta)$ 。将样本数据表示为 $D$ ，目标是计算在样本数据 $D$ 给定的条件下参数 $\theta$ 的后验概率 $p(\theta|D)$ 。此时对于给定样本 $D$ 的似然函数是 $p(D|\theta) = \theta_{1}^{n_{1}}\theta_{2}^{n_{2}}\cdots \theta_{k}^{n_{k}} = \prod_{i=1}^{k}\theta_{i}^{n_{i}}$ 我们假设随机变量 $\theta$ 服从狄利克雷分布 $p(\theta|\alpha)$ ，即 $\theta\sim\mathrm{Dir}(\alpha)$ 。此时随机变量 $\theta$ 的先验分布为 $p(\theta|\alpha) = \frac{1}{B(\alpha)}\prod_{i=1}^{k}\theta_{i}^{\alpha_{i}-1} ,\quad \alpha_{i} > 0$ 根据贝叶斯公式，给定样本数据 $D$ 的条件下， $\theta$ 的后验分布是 $\begin{aligned} p(\theta|D,\alpha) &= \frac{p(D|\theta)p(\theta|\alpha)}{p(D|\alpha)} \\ &=\frac{\prod_{i=1}^{k}\theta_{i}^{n_{i}}\frac{1}{B(\alpha)}\theta_{i}^{\alpha_{i}-1}}{\int\prod_{i=1}^{k}\theta_{i}^{n_{i}}\frac{1}{B(\alpha)}\theta_{i}^{\alpha_{i}-1} \mathrm{d}\theta} \\ &=\frac{1}{B(\alpha+n)}\prod_{i=1}^{k}\theta_{i}^{\alpha_{i}+n_{i}-1} \\ &=\mathrm{Dir}(\theta|\alpha+n) \end{aligned}$ 此时 $\theta$ 的后验分布也是狄利克雷分布，所以狄利克雷分布是多项分布的共轭先验。同时，贝塔分布也是二项分布的共轭先验。