常见的离散变量概率分布（伯努利分布、二项分布、多项分布、beta分布、dirichlet分布）

最新推荐文章于 2022-06-16 18:09:55 发布

置顶程序员白总

最新推荐文章于 2022-06-16 18:09:55 发布

阅读量2.1k

点赞数 1

分类专栏：数学文章标签：伯努利分布二项分布多项分布 beta分布 Dirichlet分布

本文链接：https://blog.csdn.net/qq_24831889/article/details/102011296

版权

数学专栏收录该内容

1 篇文章 0 订阅

订阅专栏

密度估计：在给定有限观测集合 $\vec{x}_1,\vec{x}_2,...,\vec{x}_N$ 的情况下，对随机变量 $\vec{x}$ 的概率分布 $p(\vec{x})$ 进行建模。假设所有数据点独立同分布，

伯努利分布(bernoulli)

伯努利试验：只有两种结果的单次随机试验，如掷一枚硬币。
伯努利分布（0-1分布、两点分布）：进行一次伯努利试验，表示单个二元变量 $x\in \{0,1\}$ 的分布，使用单个连续变量 $\mu\in[0,1]$ 表示 $x = 1$ 的概率。则
$p(x=1|\mu)=\mu, p(x=0|\mu)=1-\mu$ 。合并这两个式子为下式：
$Bern(x|\mu)=\mu^x(1-\mu)^{1-x}$ 。
伯努利分布的均值为 $E[x]=\sum Bern(x|\mu)x=\mu$ ，
方差为 $var[x]=E[(x-E(x)^2)]=\sum(x-\mu)^2Bern(x|\mu)=(1-\mu)^2\mu+\mu^2(1-\mu)=\mu(1-\mu)$ ，
伯努利分布是单次伯努利试验的观测结果，二项分布是N次独立重复伯努利试验的结果。伯努利分布关于 $\mu$ 的共轭先验是 $b e t a$ 分布。

二项分布(binomial)

现在进行了N次伯努利试验，得到观察结果 $D=\{x_1,x_2,...,x_N\}$ 。则似然函数为
$P(D|\mu)=\prod_{n=1}^Np(x_n|\mu)=\prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n}$
对数似然函数为
$lnP(D|\mu)=\sum_{n=1}^Nlnp(x_n|\mu)=\sum_{n=1}^N[x_nln\mu+(1-x_n)ln(1-\mu)]$
对数似然函数对 $\mu$ 求导得
$\frac{\partial lnP(D|\mu)}{\partial \mu}=\sum_{n=1}^N\frac{x_n}{\mu}-\frac{1-x_n}{1-\mu}=\sum_{n=1}^N\frac{x_n-\mu}{\mu(1-\mu)}$
令导数等于0，得
$\mu_{ML}=\frac{1}{N}\sum_{n=1}^Nx_n$
令 $m$ 为N次独立重复试验中 $x = 1$ 出现的次数，则
$\mu_{ML}=\frac{m}{N}$
二项分布给出了 $N$ 次伯努利试验中出现了 $m$ 次 $x = 1$ 的概率质量函数：
$Bin(m|N,\mu)=(^N_m)\mu^m(1-\mu)^{N-m}, m=1,2,\ldots,N$ ，
其中 $(^N_m)=\frac{N!}{m!(N-m)!}$ 为二项式系数。
二项分布的均值为 $E[x]=\sum_{m=0}^NmBin(x|N,\mu)=N\mu$ ，
方差为 $var[x]=N\mu(1-\mu)$
$N = 1$ 时二项分布变为伯努利分布，当 $N$ 很大时近似为高斯（？见PRML686页）。二项分布关于 $\mu$ 的共轭先验是 $b e t a$ 分布。

beta分布

共轭先验：如果后验分布与先验分布属于同类，则先验分布与后验分布称为共轭分布（conjugate distributions），先验分布称为共轭先验（conjugate prior）。
$Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1},0\leq \mu \leq 1$
其中 $\Gamma$ 是gamma函数， $\Gamma(x)=\int_0^\infty \mu^{x-1}e^{-\mu}d\mu$ ，满足 $\Gamma(x+1)=x\Gamma(x)$ ， $\Gamma(0)=1$ 。当x为自然数时 $\Gamma(x)=(x-1)!$
beta分布满足 $\int_0^\infty Beta(\mu|a,b)d\mu=1$
beta分布的均值 $E[\mu]=\frac{a}{a+b}$
方差 $Var[\mu]=\frac{ab}{(a+b)^2(a+b+1)}$
后验概率： $p(\mu|m,l,a,b)\propto \mu^{a+m-1}(1-\mu)^{b+l-1}$ ，其中 $l = N - m$
这是另一个beta分布，写成标准形式为：
$p(\mu|m,l,a,b) =\frac{\Gamma(a+m+b+l)}{\Gamma(a+m)\Gamma(b+l)} \mu^{a+m-1}(1-\mu)^{b+l-1}$
即二项分布的共轭先验beta分布通过 $\to a+m$ 和 $\to b+l$ 得到后验分布。
如果二项分布的先验分布是beta分布，则其后验分布也为beta分布，两者构成共轭分布。作为先验分布的beta分布的参数 $a, b$ 又称为超参数。使用共轭分布的好处是便于从先验分布计算后验分布。

多项分布（multinomial）

单次试验： $p(x|\mu)=\prod_{k=1}^K\mu_k^{x_k}$
其中 $\mu_k \ge 0$ ， $\sum_{k=1}^K \mu_k=1$
N次试验： $D=\{x_1,\ldots,x_N\}$
$p(D|x)=\prod_{n=1}^N \prod_{k=1}^K\mu_k^{x_nk}=\prod_{k=1}^K\mu_k^{\sum_n x_nk}=\prod_{k=1}^K\mu_k^{m_k}$ ，其中 $m_k=\sum_n x_{nk}$ ，表示 $x_k=1$ 出现的次数，这也是多项分布的充分统计量。
为了从观察值中估计多项分布的参数，这里构造带限制条件 $\sum_{k=1}^K\mu_k=1$ 的拉格朗日函数：
$L(\mu_1,\ldots,\mu_K,\lambda)=p(D|x)+\lambda (\sum_{k=1}^K-1)$
$=\prod_{k=1}^K\mu_k^{m_k}+\lambda (\sum_{k=1}^K-1)$
取对数得：
$lnL(\mu_1,\ldots,\mu_K,\lambda)=\sum_{k=1}^K m_klnu_k+\lambda (\sum_{k=1}^K-1)$
对 $u_k$ 求导得：
$\frac{\partial lnL(\mu_1,\ldots,\mu_K,\lambda)}{\partial \mu_k}=\sum_{k=1}^K\frac{m_k}{\mu_k}+\lambda$
令上式=0，得：
$\mu_k=-\frac{m_k}{\lambda}$
将上式带入 $\sum_{k=1}^K\mu_k=1$ 得：
$\sum_{k=1}^K-\frac{m_k}{\lambda}=-\frac{\sum_{k=1}^K m_k}{\lambda}=1$
得 $\lambda=-\sum_{k=1}^K m_k=-N$
则参数 $\mu$ 的最大似然估计 $\mu_k^{ML}=\frac{m_k}{M}$
多项分布： $Multi(m_1,m_2,\ldots,m_K|\mu,N)=(_{m_1m_2\ldots m_K}^N)\prod_{k=1}^K\mu_k^{m_k}$ ，其中 $(_{m_1m_2\ldots m_K}^N)=(^{N!}_{m_1!m_2!\ldots m_K!})$ 是多项式参数，满足 $\sum _{k=1}^Km_k=N$
多项分布是一种多元离散随机变量的概率分布，是二项分布的扩展。假设重复进行n次独立随机试验，每次实验可能出现的结果有k种，第i种结果出现的概率为 $\mu_i$ ，第 $i$ 种结果出现的次数为 $m_i$ 。如果用随机变量 $X=(X_1,X_2,\ldots,X_K)$ 表示试验所有可能出现的次数，其中 $X_i$ 表示第 $i$ 种结果出现的次数，那么随机变量 $X$ 服从多项分布。

Dirichlet分布

若多元连续随机变量 $\vec\mu=(\mu_1,\ldots,\mu_K)$ 的概率密度函数为
$p(\mu | \alpha)=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\ldots\Gamma(\alpha_K)}\prod_{k=1}^K \mu_k^{\alpha_k-1}$
其中 $\sum_{k=1}^K\alpha_k=1$ ， $\alpha_0=\sum_{k=1}^K \alpha_k$
则称随机变量 $\mu$ 服从参数为 $\alpha$ 的狄利克雷分布，记作 $\mu \thicksim Dir(\alpha)$
狄利克雷分布作为多项分布的先验分布时，其后验概率：
$p(\mu|D,\alpha) \propto p(D|\mu)p(\mu|\alpha) \propto \prod_{k=1}^K \mu_k^{\alpha_k+m_k-1}$
这是另一个Dirichlet分布，写成标准的形式为：
$p(\mu|D,\alpha)=Dir(\mu |\alpha+m)=\frac{\Gamma(\alpha_0+N)}{\Gamma(\alpha_1+m_1)\ldots\Gamma(\alpha_K+m_K)}\prod_{k=1}^K \mu_k^{\alpha_k+m_k-1}$
如果多项分布的先验分布是狄利克雷分布，则其后验分布也为一个狄利克雷分布，两者构成共轭分布。作为先验分布的狄利克雷分布的参数 $\alpha$ 又称为超参数。狄利克雷后验分布的参数等于狄利克雷先验分布的参数 $\alpha=(\alpha_1,\alpha_2,\ldots,\alpha_K)$ 加上多项分布的观测计数 $m=(m_1,m_2,\ldots,m_K)$ 。