伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布

最新推荐文章于 2025-10-09 10:49:40 发布

原创最新推荐文章于 2025-10-09 10:49:40 发布 · 10w+ 阅读

78 ·

CC 4.0 BY-SA版权

文章标签：

#beta分布 #dirichlet分布 #二项分布 #多项分布

Machine Learning 专栏收录该内容

1 篇文章

订阅专栏

本文深入介绍了概率论中的核心概念，包括伯努利分布、二项分布、多项分布、贝塔分布和狄利克雷分布，解释了它们的基本原理、应用背景及其相互关系，旨在为读者提供全面的概率分布知识体系。

1. 伯努利分布

伯努利分布(Bernoulli distribution)又名两点分布或0-1分布，介绍伯努利分布前首先需要引入伯努利试验（Bernoulli trial）。

伯努利试验是只有两种可能结果的单次随机试验，即对于一个随机变量X而言：

$P_r[X=1]=p$

$P_r[X=0]=1-p$

伯努利试验都可以表达为“是或否”的问题。例如，抛一次硬币是正面向上吗？刚出生的小孩是个女孩吗？等等

如果试验E是一个伯努利试验，将E独立重复地进行n次，则称这一串重复的独立试验为n重伯努利试验。
进行一次伯努利试验，成功(X=1)概率为p(0<=p<=1)，失败(X=0)概率为1-p，则称随机变量X服从伯努利分布。伯努利分布是离散型概率分布，其概率质量函数为：

$f(x) = p^x(1-p)^{1-x} =\left\{ \begin{array}{ll} p & if \ x=1 \\ 1-p & if\ x=0 \\ 0 & otherwise \end{array} \right.$

2. 二项分布

二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

如果试验E是一个n重伯努利试验，每次伯努利试验的成功概率为p，X代表成功的次数，则X的概率分布是二项分布，记为X~B(n,p)，其概率质量函数为
$P\lbrace X=k\rbrace = C_n^k p^k(1-p)^{n-k}, k=0,1,2,....,n.$

显然，

$\sum_{k=0}^n{ P\{ X=k \} } = \sum_{k=0}^n{C_n^k p^k(1-p)^{n-k}} = [p+(1-p)]^n = 1$

从定义可以看出，伯努利分布是二项分布在n=1时的特例
二项分布名称的由来，是由于其概率质量函数中使用了二项系数 $C_n^{k}$ ，该系数是二项式定理中的系数，二项式定理由牛顿提出：
$(x+y)^n=C_n^k x^k y^{n-k}$

二项分布的典型例子是扔硬币，硬币正面朝上概率为p, 重复扔n次硬币，k次为正面的概率即为一个二项分布概率。

3. 多项分布

多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验，规定了每次试验的结果只有两个，如果现在还是做n次试验，只不过每次试验的结果可以有多m个，且m个结果发生的概率互斥且和为1，则发生其中一个结果X次的概率就是多项式分布。

扔骰子是典型的多项式分布。扔骰子，不同于扔硬币，骰子有6个面对应6个不同的点数，这样单次每个点数朝上的概率都是1/6（对应p1~p6，它们的值不一定都是1/6，只要和为1且互斥即可，比如一个形状不规则的骰子）,重复扔n次，如果问有k次都是点数6朝上的概率就是

$P\{ X=k \} = C_n^k p_6^k(1-p_6)^{n-k}, k=0,1,2,....,n.$

多项式分布一般的概率质量函数为：

$P\{ X_1=k_1,X_2=k_2,...,X_n=k_n \} = \frac{n!}{k_1!k_2!...k_n!}\prod_{i=1}^{n}{p_i^{k_i}},\ where \sum_{i=0}^n{k_i} = n.$

4. 贝塔分布

在介绍贝塔分布(Beta distribution)之前，需要先明确一下先验概率、后验概率、似然函数以及共轭分布的概念。

通俗的讲，先验概率就是事情尚未发生前，我们对该事发生概率的估计。利用过去历史资料计算得到的先验概率，称为客观先验概率；当历史资料无从取得或资料不完全时，凭人们的主观经验来判断而得到的先验概率，称为主观先验概率。例如抛一枚硬币头向上的概率为0.5，这就是主观先验概率。
后验概率是指通过调查或其它方式获取新的附加信息，利用贝叶斯公式对先验概率进行修正，而后得到的概率。
先验概率和后验概率的区别：先验概率不是根据有关自然状态的全部资料测定的，而只是利用现有的材料(主要是历史资料)计算的；后验概率使用了有关自然状态更加全面的资料，既有先验概率资料，也有补充资料。另外一种表述：先验概率是在缺乏某个事实的情况下描述一个变量；而后验概率（Probability of outcomes of an experiment after it has been performed and a certain event has occured.）是在考虑了一个事实之后的条件概率。
似然函数
共轭分布(conjugacy)：后验概率分布函数与先验概率分布函数具有相同形式

好了，有了以上先验知识后，终于可以引入贝塔分布啦！！首先，考虑一点，在试验数据比较少的情况下，直接用最大似然法估计二项分布的参数可能会出现过拟合的现象（比如，扔硬币三次都是正面，那么最大似然法预测以后的所有抛硬币结果都是正面）。为了避免这种情况的发生，可以考虑引入先验概率分布 $p(\mu)$ 来控制参数 $\mu$ ，防止出现过拟合现象。那么，问题现在转为如何选择 $p(\mu)$ ！

先验概率和后验概率的关系为：

$posterior=likelihood*prior$

二项分布的似然函数为（就是二项分布除归一化参数之外的后面那部分，似然函数之所以不是pdf，是因为它不需要归一化）：

$\mu^m(1-\mu)^n$

如果选择的先验概率 $p(\mu)$ 也与 $\mu$ 和 $(1-\mu)$ 次方德乘积的关系，那么后验概率分布的函数形式就会跟它的先验函数形式一样了。具体来说，选择prior的形式是 $w_1*\mu^a(1-\mu)^b$ ，那么posterior就会变成 $w_2*\mu^{m+a}(1-\mu)^{n+b}$ 这个样子了( $w_1,w_2$ 为pdf的归一化参数)，所以posterior和prior具有相同的函数形式(都是 $p(\mu)$ 也与 $\mu$ 和 $(1-\mu)$ 次方的乘积)，这样先验概率与后验概率就是共轭分布了。

所以，我们选择了贝塔分布作为先验概率，其概率分布函数为：

$Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}}$ ，其中 $0<\mu<1,\ \Gamma(n)=(n-1)!,\ n=1,2,3...$

5. 狄利克雷分布

狄利克雷分布(Dirichlet distribution)是多项分布的共轭分布，也就是它与多项分布具有相同形式的分布函数。

概率分布函数为：
$P\{ p_1,...,p_n;\alpha_1,...\alpha_n \} = \frac{1}{B(\alpha)}\prod_{i=1}^{n}{p_i^{k_i-1}},\ where \ B(\alpha)= \frac{\prod_{i=1}^{n}{\Gamma(\alpha_i)}}{\Gamma(\sum_{i=1}^{n}{\alpha_i})}$

6. 后记

本篇博文只是将伯努利分布、二项分布、多项分布、贝塔分布和狄利克雷分布做了简单的介绍，其中涉及到大量的概率基础和高等数学的知识，文中的介绍只是粗浅的把这些分布的概念作了大概介绍，没有对这些分布的产生历史做介绍。我想，更好的介绍方式，应是从数学史的角度，将这几项分布的发现按照历史规律来展现，这样会更直观、形象。后续再补吧！