泊松过程、伽马分布、贝塔分布及狄利克雷分布
1.泊松过程
1.1Poisson过程的定义
Poisson过程是一类重要的计数过程,首先给出计数过程的定义。
定义1.1 随机过程{N(t),t≥0}称为计数过程,如果N(t)表示从0到t时刻某一特定事件A发生的次数,它具备以下两个特点:
N(t)≥0且取值为整数;
当s<t时,N(s)≤N(t)且N(t)-N(s)表示(s,t]时间内事件A发生的次数。
Poisson过程是具有独立增量和平稳增量的计数过程,它的定义如下。
定义1.2 计数过程{N(t),t≥0}称为参数为λ(λ>0)的Poisson过程,如果
N(0)=0;
过程有独立增量;
在任一长度为t的时间区间中事件发生的次数服从均值为λt的Poisson分布,即对一切s≥0,t>0,有
P
{
N
(
t
+
s
)
−
N
(
s
)
=
n
}
=
e
−
λ
t
(
λ
t
)
n
n
!
,
n
=
0
,
1
,
2
,
⋯
P\{N(t+s)-N(s)=n\}=e^{-\lambda t} \frac{(\lambda t)^{n}}{n !}, n=0,1,2, \cdots
P{N(t+s)−N(s)=n}=e−λtn!(λt)n,n=0,1,2,⋯
从定义1.2(3)中易见,N(t+s)-N(s)的分布不依赖于s,所以该式蕴涵了过程的平稳增量性。另外,由Poisson分布的性质知道,
E
(
N
(
t
)
)
=
∑
n
=
0
+
∞
n
⋅
e
−
λ
t
(
λ
t
)
n
n
!
=
λ
t
e
−
λ
t
∑
n
=
1
+
∞
(
λ
t
)
n
−
1
(
n
−
1
)
!
=
λ
t
e
−
λ
t
∑
n
=
0
+
∞
(
λ
t
)
n
n
!
=
λ
t
e
−
λ
t
⋅
e
λ
t
=
λ
t
\begin{array}{c}E(N(t))=\sum_{n=0}^{+\infty} n \cdot e^{-\lambda t} \frac{(\lambda t)^{n}}{n !}=\lambda t e^{-\lambda t} \sum_{n=1}^{+\infty} \frac{(\lambda t)^{n-1}}{(n-1) !}=\lambda t e^{-\lambda t} \sum_{n=0}^{+\infty} \frac{(\lambda t)^{n}}{n !} \\=\lambda t e^{-\lambda t} \cdot e^{\lambda t}=\lambda t\end{array}
E(N(t))=∑n=0+∞n⋅e−λtn!(λt)n=λte−λt∑n=1+∞(n−1)!(λt)n−1=λte−λt∑n=0+∞n!(λt)n=λte−λt⋅eλt=λt,于是可认为λ是单位时间内发生的事件的平均次数,一般称λ是Poisson过程的强度或速率。
定义1.3 设{N(t),t≥0}是一个计数过程,它满足
(1) N(0)=0;
(2)过程有平稳独立增量;
(3)存在λ>0,当h↓0时,有
P
{
N
(
t
+
h
)
−
N
(
t
)
=
1
}
=
λ
h
+
o
(
h
)
P\{N(t+h)-N(t)=1\}=\lambda h+o(h)
P{N(t+h)−N(t)=1}=λh+o(h)
(4) 当h↓0时,有
P
{
N
(
t
+
h
)
−
N
(
t
)
≥
2
}
=
o
(
h
)
P\{N(t+h)-N(t) \geq 2\}=o(h)
P{N(t+h)−N(t)≥2}=o(h)
定理1.1 满足上述条件(1)~(4)的计数过程{N(t),t≥0}是Poisson过程,反过来Poisson过程一定满足这四个条件。
T
n
T_{n}
Tn表示第n次(n=1,2,···)事件发生的时刻,规定
T
0
T_{0}
T0=0。
X
n
X_{n}
Xn表示第n次与第n-1次事件发生的时间间隔。
定理1.2
X
n
X_{n}
Xn(n=1,2,···)服从参数为λ的指数分布,且相互独立。
定理1.3
T
n
T_{n}
Tn(n=1,2,···)服从参数为n和λ的Γ分布。
定义1.4 计数过程{N(t),t≥0}是参数为λ的Poisson过程,如果每次事件发生的时间间隔
X
1
X_{1}
X1,
X
2
X_{2}
X2,···相互独立,且服从同一参数为λ的指数分布。
1.2Poisson过程的应用
例1.1 (Poisson过程在排队论中的应用)研究随机服务系统中的排队现象时,经常用到Poisson过程模型。例如,到达电话总机的呼叫数目,到达某服务设施(商场、车站、购票处等)的顾客数,都可以用Poisson过程来描述。以某火车站售票处为例,设从早上8:00开始,此售票处连续售票,乘客以10人/小时的平均速率到达,则9:00—10:00这1小时内最多有5名乘客来此购票的概率是多少?10:00—11:00没有人来买票的概率是多少?
解 我们用一个Poisson过程来描述。设8:00为时刻0,则9:00为时刻1,参数λ=10。则9:00—10:00这1小时内最多有5名乘客来此购票的概率为
P
{
N
(
2
)
−
N
(
1
)
≤
5
}
=
∑
n
=
0
5
e
−
10
1
0
n
n
!
P\{N(2)-N(1) \leq 5\}=\sum_{n=0}^{5} e^{-10} \frac{10^{n}}{n !}
P{N(2)−N(1)≤5}=∑n=05e−10n!10n
10:00—11:00没有人来买票的概率为
P
{
N
(
3
)
−
N
(
2
)
=
0
}
=
e
−
10
1
0
0
0
!
=
e
−
10
P\{N(3)-N(2) =0\}= e^{-10} \frac{10^{0}}{0 !}=e^{-10}
P{N(3)−N(2)=0}=e−100!100=e−10
例1.2 (事故发生次数及保险公司接到的索赔数)若以N(t)表示某公路交叉口、矿山、工厂等场所在(0,t]时间内发生不幸事故的数目,则Poisson过程就是{N(t),t≥0}的一种很好的近似。例如,保险公司接到赔偿请求的次数(设一次事故就一次索赔)、向315台的投诉(设商品出现质量问题为事故)等都可以应用Poisson过程模型。我们考虑一种最简单的情况,设保险公司每次的赔付都是1 ,每月平均接到索赔要求4次,则一年中它要支付的金额平均为多少?
解 设一年开始为时刻0,1月末为时刻1,2月末为时刻2······年末为时刻12,则有
P
{
N
(
12
)
−
N
(
0
)
=
n
}
=
(
4
×
12
)
n
n
!
e
−
4
×
12
P\{N(12)-N(0)=n\}=\frac{(4\times12)^n}{n!}\ e^{-4\times12}
P{N(12)−N(0)=n}=n!(4×12)n e−4×12
均值
E
[
N
(
12
)
−
N
(
0
)
]
=
4
×
12
=
48
E[N(12)-N(0)]=4\times12=48
E[N(12)−N(0)]=4×12=48
例1.3 事件A的发生形成强度为λ的Poisson过程{N(t),t≥0},如果每次事件发生时能够以概率p被记录下来,并以M(t)表示到时刻t被记录下来的事件总数,则{M(t),t≥0}是一个强度为λp的Poisson过程。
证明 事实上,由于每次事件发生时,对它的记录和不记录都与其他的事件能否被记录独立,而且事件发生服从Poisson分布,所以M(t)也具有平稳独立增量,故只需验证M(t)服从均值为λpt的Poisson分布。
结论得证。
2.伽马分布
伽马分布(Gamma Distribution)在概率论与数理统计中有着非常重要的作用并且其应用非常广泛,如:水文学、概率统计、水位设计、机器学习、算法设计、可靠性理论、材料的寿命、寿险精算等。
2.1伽马分布的定义
若随机变量X服从的密度函数为
分布函数为
其中Γ(α)=
∫
0
∞
x
α
−
1
e
−
x
d
x
∫_0^∞x^{α-1} e^{-x}dx
∫0∞xα−1e−xdx,称为Γ函数。则称随机变量X服从参数为α,λ的伽马分布,记为X~Ga(α,λ),其中α为形状参数,λ为尺度参数。伽马分布总是偏态分布,α越大,f(x;α,λ)越近似于正态密度,α越小其偏斜程度越严重。
2.2伽马分布的性质
若随机变量X服从伽马分布,则随机变量X的k阶矩为
其期望及方差为
伽马分布的可加性:
设随机变量Z
X
1
X_1
X1,
X
2
X_2
X2,⋯,
X
n
X_n
Xn相互独立且均服从伽马分布,即
X
i
X_i
Xi~Ga(
α
i
α_i
αi,λ),i=1,2,⋯,n,则
X
1
X_1
X1+
X
2
X_2
X2+⋯+
X
n
X_n
Xn∼Ga(
α
1
α_1
α1+
α
2
α_2
α2+⋯+
α
n
α_n
αn,λ)
伽马分布的伸缩性:
设随机变量X服从参数为α,λ的伽马分布,即X~Ga(α,λ),则
Y=X/k~Ga(α,kλ)
2.3伽马分布与其他分布的关系
从伽马分布的密度表达式可以看出伽马分布与其他分布有着关系非常密切:
若α∈
N
+
N^+
N+时,可以将伽马分布看成α个彼此独立尺度参数为λ的指数分布之和;
当λ充分小时,可以将该分布近似看成正态分布;
当α=n/2 ,λ=1/2时,伽马分布就成了数理统计中经常用到的
χ
2
(
n
)
χ^2 (n)
χ2(n)分布;
若随机变量X,Y彼此独立且X~Ga(
α
1
α_1
α1,λ),Y~Ga(
α
2
α_2
α2,λ),则随机变量X/(X+Y)与随机变量X+Y相互独立,从而随机变量X/(X+Y)服从密度函数为
f
(
x
)
=
Γ
(
α
1
+
α
2
)
Γ
(
α
1
)
Γ
(
α
2
)
x
α
1
−
1
(
1
−
x
)
α
2
−
1
,
0
<
x
<
1
f(x)= \frac{Γ(α_1+α_2 )}{Γ(α_1 )Γ(α_2 )} x^{α_1-1} (1-x)^{α_2-1},0<x<1
f(x)=Γ(α1)Γ(α2)Γ(α1+α2)xα1−1(1−x)α2−1,0<x<1
的Beta分布;
若随机变量X,Y相互独立且均服从参数为λ的指数分布,则随机变量X/(X+Y)服从[0,1]的均匀分布;
若随机变量X,Y相互独立且X~N(0,1),Y~
χ
2
(
n
)
χ^2 (n)
χ2(n)= G(n/2,1/2),则随机变量
若随机变量X,Y相互独立且Y~
χ
2
(
m
)
χ^2 (m)
χ2(m)= G(m/2,1/2),Y~
χ
2
(
n
)
χ^2 (n)
χ2(n)= G(n/2,1/2),则随机变量(X/m)/(Y/n)∼F(m,n).
因此,可以得出结论:伽马分布与数理统计中许多重要的分布有着密切的关系,或直接产生其他分布或间接产生其他分布。所以研究伽马分布,尤其是伽马分布参数的极大似然估计有着举足轻重的作用。
伽马分布与指数分布
当𝛼=1,Ga(1,𝜆)就是参数为 𝜆 的指数分布,记为 exp(𝜆)。指数分布解决的问题是“要等到一个随机事件发生,需要经历多久时间”;伽马分布解决的问题是“要等到n个随机事件都发生,需要经历多久时间”。
例如电子产品的失效常常是由外界的“冲击”引起的,若在(0,t)内发生冲击的次数N(t)服从参数为λt的泊松分布,因为事件“第n冲击到来的时间s_n小于等于t”等价于事件“(0,t)发生的冲击次数N(t)大于等于n”,即
{
S
n
≤
t
}
=
{
N
(
t
)
⩾
n
}
\{S_n≤t\}=\{N(t)⩾n\}
{Sn≤t}={N(t)⩾n}
于是,
S
n
S_n
Sn的分布函数为
用分部积分法可以验证下列等式
∑
k
=
0
n
−
1
(
λ
t
)
k
k
!
e
−
λ
t
=
λ
n
Γ
(
n
)
∫
t
∞
x
n
−
1
e
−
λ
x
d
x
∑_{k=0}^{n-1}\frac{(λt)^k}{k!} e^{-λt}=\frac{λ^n}{Γ(n)}∫_t^∞x^{n-1}e^{-λx}dx
k=0∑n−1k!(λt)ke−λt=Γ(n)λn∫t∞xn−1e−λxdx
所以
F
(
t
)
=
λ
n
Γ
(
n
)
∫
0
t
x
n
−
1
e
−
λ
x
d
x
F(t)=\frac{λ^n}{Γ(n)}∫_0^t x^{n-1} e^{-λx}dx
F(t)=Γ(n)λn∫0t xn−1e−λxdx 即
S
n
S_n
Sn~Ga(n,λ)
表明第n次冲击到来的时间
S
n
S_n
Sn服从伽玛分布。
3.贝塔分布
3.1贝塔分布的定义
Beta分布(Beta Distribution)是一个定义在[0,1]区间上的连续概率分布族,它有两个正值参数,称为形状参数, 一般用α和β表示。在贝叶斯推断中,Beta分布是Bernoulli、二项分布、负二项分布和几何分布的共轭先验分布。Beta分布的概率密度函数形式如下:
当0<x<1时,
f
(
x
;
a
,
b
)
=
Γ
(
α
+
β
)
(
Γ
(
α
)
Γ
(
β
)
x
α
−
1
(
1
−
x
)
β
−
1
=
1
B
(
α
,
β
)
x
α
−
1
(
1
−
x
)
β
−
1
f(x;a,b)=\frac{Γ(α+β)}{(Γ(α)Γ(β)}x^{α-1}(1-x)^{β-1}=\frac{1}{B(α,β)}x^{α-1}(1-x)^{β-1}
f(x;a,b)=(Γ(α)Γ(β)Γ(α+β)xα−1(1−x)β−1=B(α,β)1xα−1(1−x)β−1,其中Γ(z)是Γ函数。随机变量X服从参数为α,β的Beta分布,通常记为X~Beta(α,β),α>0,β>0。
其期望与方差为
3.2贝塔分布的图形
不同参数的Beta分布概率密度函数曲线和累积概率密度函数曲线如图1、图2所示。
图1 Beta分布的概率密度函数曲线
图2 Beta分布的累积概率密度函数曲线
从Beta分布的累积概率密度函数的图形可以看出,Beta分布有很多种形状,但都是在0-1区间内,因此Beta分布可以描述各种0-1区间内的形状(事件)。因此,Beta分布特别适合为某件事发生或者成功的概率建模。另外,当α=1,β=1时,它就是一个均匀分布。
3.3贝塔分布的应用
例3.1 (旧货商的服务质量推断)假设亚马逊有三家旧货商,其评价结果分别如下:
商家一:85193个评论,94%的正向
商家二:20785个评论,98%的正向
商家三:840个评论,99%的正向
那么这三个商家中,哪一家的服务质量最好呢?假设这三家的服务质量分别是θX、θY和θZ。
解 假设我们对三家旧货商的信息一无所知, 那么这些参数的先验可以认为是一个均匀分布,也可以等同于Beta(1,1)。根据之前的知识,我们知道,最终这三家旧货商的服务质量应当服从三个不同参数的Beta分布,即Beta( 80082, 5113)、Beta(20370, 417)和Beta(833, 9) (计算正向和负向评论, 分别加1就是相应Beta分布的参数)。注意,当Beta分布的参数很大的时候,可以使用相同均值和方差的正态分布代替Beta分布。因此,最终这三家供货商,商家三的服务质量的标准差为0.003,是最大的。因此,我们可以认为这三家供货商的服务质量都高度聚焦于他们的均值。因此,从第一个或第二个分布中抽取的样本不太可能比第三个样本的值高。也就是说前两个商家的服务质量不太可能比第三个高。
例3.2 (为实验成功概率建模——为棒球运动员的击球率建模)棒球运动中有一个指标是棒球击球率,就是用一个运动员击中的球数除以击球的总数,一般认为0.266是正常水平的击球率,根据历史信息,击球率一般在(0.21,0.35)之间。现有一个棒球运动员,我们希望能够预测他在这一赛季中的棒球击球率是多少。
如果不考虑历史信息,直接计算棒球击球率,即用击中的数除以击球数。比如某个棒球运动员只打了一次,那他的击球率就是100%或0%,这显然是不合理的。
因此,使用二项分布表示一次击球成功或失败的概率,使用Beta分布表示先验信息,Beta分布中的定义域是(0,1),与概率的范围一样。
图3 Beta分布作为先验分布
如图3所示,使用Beta分布作为先验分布来解决这个问题。图3是该问题的概率图模型,假设该运动员的击球率的分布是一个参数为θ的分布,也就是说θ是该运动员击球成功的概率。假设到目前为止,该运动员在这个赛季总共打了n次球,击中的次数是x,这是二项式分布,即p(y∣θ)=Binomial(x;n,θ)。我们的目标是推导θ分布的形式并估算该参数的值,于是就变成了在贝叶斯推断中的求后验概率的问题:
p
(
θ
∣
y
,
α
,
β
)
=
p
(
y
∣
θ
)
p
(
θ
∣
α
,
β
)
p
(
y
)
p(\theta \mid y, \alpha, \beta)=\frac{p(y \mid \theta) p(\theta \mid \alpha, \beta)}{p(y)}
p(θ∣y,α,β)=p(y)p(y∣θ)p(θ∣α,β)
其中,分母p(y)是数据结果,即为常数。分子的第一项是二项式分布,即p(y∣θ)=θx(1-θ)n-x,分子的第二项是Beta分布的结果。最后发现θ也是一个Beta分布,其结果为Beta(α+x,β+(n-x))。
假设所有运动员的平均击球率为0.27,而击球率的范围是0.21到0.35,根据这个信息,取参数α=81,β=219。为什么参数取这两个值呢?因为这两个参数的Beta分布的期望为α/(α+β)=81/(81+219)=0.27,又因为在Beta(81,219)的分布图中概率主要落在了(0.2,0.35)之间。
假设某个棒球运动员击球300次,成功100次,根据计算结果,用户的击球率的分布应当是Beta(181,419),其概率大约是均值0.302,要比平均水平略高。
从上面的例子中我们可以看出,对于某个事件发生的可能的概率,当我们只有一些大概的了解,但无法知道确切的概率的时候,可以使用Beta分布表示这个概率分布。Beta分布可以看作一个概率的概率分布,当不知道事件的具体概率是多少时,它给出了所有概率出现的可能性大小。
4.狄利克雷分布
狄利克雷分布(Dirichlet distribution)是一种多元连续随机变量的概率分布,是贝塔分布的扩展。在贝叶斯推断中,狄利克雷分布作为多项分布的共轭先验得到应用,在机器学习中被用于构建狄利克雷混合模型。狄利克雷分布在函数空间内对应的随机过程是狄利克雷过程。
4.1狄利克雷分布的定义
贝叶斯定理描述了如何通过已知经验来判断一个未知事件发生的概率,其公式为:
p
(
A
∣
B
)
=
p
(
A
)
×
p
(
B
∣
A
)
p
(
B
)
p(A \mid B)=\frac{p(A) \times p(B \mid A)}{p(B)}
p(A∣B)=p(B)p(A)×p(B∣A)
其中P(A∣B)是A的后验概率,P(A)是A的先验概率,P(B)被称为边缘概率。贝叶斯估计是将贝叶斯定理推广到连续概率分布中,通过观测到的数据,对己知的经验进行修正,计算分布的后验分布,其数学形式如下:
先验分布×似然函数=后验分布
贝叶斯定理具有严格的物理解释,通过数据经验又可以推断出事件的概率,因此贝叶斯定理在机器学习中使用十分广泛。在统计学中,多项式分布表示一个具有多个结果的事件执行K次的概率分布,是将二项分布在高维度上的推广,其概率密度函数可表示为:
p
(
x
∣
β
)
=
n
!
∏
i
=
1
K
x
i
!
∏
i
=
1
K
p
i
x
i
\mathrm{p}(\boldsymbol{x} \mid \boldsymbol{\beta})=\frac{n!}{\prod_{i=1}^{K}x_i!} \prod_{i=1}^{K} p_{i}^{x_{i}}
p(x∣β)=∏i=1Kxi!n!i=1∏Kpixi
狄利克雷分布表示了一组多变量并且连续的概率分布,其概率密度函数可表示为:
p
(
θ
∣
α
)
=
Γ
(
∑
i
=
1
K
α
i
)
∏
i
=
1
K
Γ
(
α
i
)
∏
i
=
1
K
θ
i
α
i
−
1
\mathrm{p}(\boldsymbol{\theta} \mid \boldsymbol{\alpha})=\frac{\Gamma\left(\sum_{i=1}^{K} \alpha_{i}\right)}{\prod_{i=1}^{K} \Gamma\left(\alpha_{i}\right)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1}
p(θ∣α)=∏i=1KΓ(αi)Γ(∑i=1Kαi)i=1∏Kθiαi−1
其中
∑
i
=
1
K
θ
i
=
1
,
θ
i
⩾
1
,
α
=
(
α
i
,
α
i
,
⋅
⋅
⋅
,
α
i
)
,
α
i
>
0
,
i
=
1
,
2
,
⋅
⋅
⋅
,
k
,
\sum_{i=1}^{K} \theta_{i}=1,\theta_{i}⩾1,\alpha=(α_i,α_i,···,α_i ),α_i>0,i=1,2,···,k,
∑i=1Kθi=1,θi⩾1,α=(αi,αi,⋅⋅⋅,αi),αi>0,i=1,2,⋅⋅⋅,k,则称随机变量θ服从参数为α的狄利克雷分布。狄利克雷分布可简记为Dir(α),相应的,多项式分布可记为Mult(θ)。
假设分布β满足Dir(α),并按照Mult(θ)分布产生观测数据x,根据狄利克雷多项式共轭特性可知,β的后验分布依然满足狄利克雷分布,配合贝叶斯定理可知
Dir
(
α
)
×
Mult
(
θ
)
=
(
Γ
(
∑
i
=
1
K
α
i
)
∏
i
=
1
K
Γ
(
α
i
)
∏
i
=
1
K
θ
i
α
i
−
1
)
(
n
!
∏
i
=
1
K
x
i
!
∏
i
=
1
K
θ
i
x
i
)
∫
(
Γ
(
∑
i
=
1
K
α
i
)
∏
i
=
1
K
Γ
(
α
i
)
∏
i
=
1
K
θ
i
α
i
−
1
)
(
n
!
∏
i
=
1
K
x
i
!
∏
i
=
1
K
θ
i
x
i
)
d
θ
=
∏
i
=
1
K
θ
i
x
i
+
α
i
−
1
∫
∏
i
=
1
K
θ
i
x
i
+
α
i
−
1
d
θ
\begin{gathered} \operatorname{Dir}(\boldsymbol{\alpha}) \times \operatorname{Mult}(\boldsymbol{\theta})=\frac{\left(\frac{\Gamma\left(\sum_{i=1}^{K} \alpha_{i}\right)}{\prod_{i=1}^{K} \Gamma\left(\alpha_{i}\right)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1}\right)\left(\frac{n !}{\prod_{i=1}^{K} x_{i} !} \prod_{i=1}^{K} \theta_{i}^{x_{i}}\right)}{\int\left(\frac{\Gamma\left(\sum_{i=1}^{K} \alpha_{i}\right)}{\prod_{i=1}^{K} \Gamma\left(\alpha_{i}\right)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1}\right)\left(\frac{n !}{\prod_{i=1}^{K} x_{i} !} \prod_{i=1}^{K} \theta_{i}^{x_{i}}\right) d \boldsymbol{\theta}} \\ =\frac{\prod_{i=1}^{K} \theta_{i}^{x_{i}+\alpha_{i}-1}}{\int \prod_{i=1}^{K} \theta_{i}^{x_{i}+\alpha_{i}-1} d \boldsymbol{\theta}} \end{gathered}
Dir(α)×Mult(θ)=∫(∏i=1KΓ(αi)Γ(∑i=1Kαi)∏i=1Kθiαi−1)(∏i=1Kxi!n!∏i=1Kθixi)dθ(∏i=1KΓ(αi)Γ(∑i=1Kαi)∏i=1Kθiαi−1)(∏i=1Kxi!n!∏i=1Kθixi)=∫∏i=1Kθixi+αi−1dθ∏i=1Kθixi+αi−1
因为
∫
∏
i
=
1
K
θ
i
α
i
−
1
d
θ
=
∏
i
=
1
K
Γ
(
α
i
)
Γ
(
∑
i
=
1
K
α
i
)
\int \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1}d \theta=\frac{\prod_{i=1}^{K} \Gamma\left(\alpha_{i}\right)}{\Gamma\left(\sum_{i=1}^{K} \alpha_{i}\right)}
∫∏i=1Kθiαi−1dθ=Γ(∑i=1Kαi)∏i=1KΓ(αi),则上式可以修改为
Γ
(
∑
i
=
1
K
x
i
+
α
i
)
∏
i
=
1
K
Γ
(
x
i
+
α
i
)
∏
i
=
1
K
θ
i
x
i
+
α
i
−
1
=
D
i
r
(
x
+
α
)
\frac{\Gamma\left(\sum_{i=1}^{K} x_{i}+\alpha_{i}\right)}{\prod_{i=1}^{K} \Gamma\left(x_{i}+\alpha_{i}\right)} \prod_{i=1}^{K} \theta_{i}^{x_{i}+\alpha_{i}-1}=Dir(x+\alpha)
∏i=1KΓ(xi+αi)Γ(∑i=1Kxi+αi)i=1∏Kθixi+αi−1=Dir(x+α)
由于后验分布与先验分布属于同类分布,因此可知狄利克雷分布是共轭分布。
令
B
(
α
)
=
∏
i
=
1
K
Γ
(
α
i
)
Γ
(
∑
i
=
1
K
α
i
)
B(\alpha)=\frac{\prod_{i=1}^{K} \Gamma\left(\alpha_{i}\right)}{\Gamma\left(\sum_{i=1}^{K} \alpha_{i}\right)}
B(α)=Γ(∑i=1Kαi)∏i=1KΓ(αi)
则狄利克雷分布的密度函数可以写成
p
(
θ
∣
α
)
=
1
B
(
α
)
∏
i
=
1
k
θ
i
α
i
−
1
p(\theta \mid \alpha)=\frac{1}{\mathrm{~B}(\alpha)} \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1}
p(θ∣α)= B(α)1i=1∏kθiαi−1
B(α)是规范化因子,称为多元贝塔函数(或扩展的贝塔函数)。由密度函数的性质
∫
Γ
(
∑
i
=
1
k
α
i
)
∏
i
=
1
k
Γ
(
α
i
)
∏
i
=
1
k
θ
i
α
i
−
1
d
θ
=
Γ
(
∑
i
=
1
k
α
i
)
∏
i
=
1
k
Γ
(
α
i
)
∫
∏
i
=
1
k
θ
i
α
i
−
1
d
θ
=
1
\int \frac{\Gamma\left(\sum_{i=1}^{k} \alpha_{i}\right)}{\prod_{i=1}^{k} \Gamma\left(\alpha_{i}\right)} \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1} \mathrm{~d} \theta=\frac{\Gamma\left(\sum_{i=1}^{k} \alpha_{i}\right)}{\prod_{i=1}^{k} \Gamma\left(\alpha_{i}\right)} \int \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1} \mathrm{~d} \theta=1
∫∏i=1kΓ(αi)Γ(∑i=1kαi)i=1∏kθiαi−1 dθ=∏i=1kΓ(αi)Γ(∑i=1kαi)∫i=1∏kθiαi−1 dθ=1
得
B
(
α
)
=
∫
∏
i
=
1
k
θ
i
α
i
−
1
d
θ
B(\alpha)=\int \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1} \mathrm{~d} \theta
B(α)=∫i=1∏kθiαi−1 dθ
所以上式是多元贝塔函数的积分表示。
4.2狄利克雷分布的性质
1)统计量
对服从狄利克雷分布的随机变量X~Dir(α),其均值、众数、方差和协方差有如下表示:
mean :
E
(
X
i
)
=
α
i
α
0
mode :
M
(
X
i
)
=
α
i
−
1
α
0
−
d
var :
σ
(
X
i
)
2
=
α
i
(
α
0
−
α
i
)
α
0
2
(
α
0
+
1
)
cov:
C
(
X
i
,
X
j
)
=
α
i
α
0
−
α
i
α
j
α
0
2
(
α
0
+
1
)
\begin{array}{r} \text { mean : } E\left(X_{i}\right)=\frac{\alpha_{i}}{\alpha_{0}} \\ \text { mode : } M\left(X_{i}\right)=\frac{\alpha_{i}-1}{\alpha_{0}-d} \\ \text { var : } \sigma\left(X_{i}\right)^{2}=\frac{\alpha_{i}\left(\alpha_{0}-\alpha_{i}\right)}{\alpha_{0}^{2}\left(\alpha_{0}+1\right)} \\ \text { cov: } C\left(X_{i}, X_{j}\right)=\frac{\alpha_{i} \alpha_{0}-\alpha_{i} \alpha_{j}}{\alpha_{0}^{2}\left(\alpha_{0}+1\right)} \end{array}
mean : E(Xi)=α0αi mode : M(Xi)=α0−dαi−1 var : σ(Xi)2=α02(α0+1)αi(α0−αi) cov: C(Xi,Xj)=α02(α0+1)αiα0−αiαj
更一般地,X的矩可表示为两个多元Beta函数的比值:
E
(
∏
i
=
1
d
X
i
β
i
)
=
Γ
(
α
0
)
Γ
(
α
0
+
β
0
)
∏
i
=
1
d
Γ
(
α
i
+
β
i
)
Γ
(
α
i
)
=
B
(
α
+
β
)
B
(
α
)
,
β
0
=
∑
i
=
1
d
β
i
E\left(\prod_{i=1}^{d} X_{i}^{\beta_{i}}\right)=\frac{\Gamma\left(\alpha_{0}\right)}{\Gamma\left(\alpha_{0}+\beta_{0}\right)} \prod_{i=1}^{d} \frac{\Gamma\left(\alpha_{i}+\beta_{i}\right)}{\Gamma\left(\alpha_{i}\right)}=\frac{\mathrm{B}(\boldsymbol{\alpha}+\boldsymbol{\beta})}{\mathrm{B}(\boldsymbol{\alpha})}, \beta_{0}=\sum_{i=1}^{d} \beta_{i}
E(i=1∏dXiβi)=Γ(α0+β0)Γ(α0)i=1∏dΓ(αi)Γ(αi+βi)=B(α)B(α+β),β0=i=1∑dβi
2)共轭性
多项分布的共轭先验是狄利克雷分布,即对狄利克雷分布的先验,当似然是多项分布时,其后验分布也为狄利克雷分布。
3)与伽马分布的关系
由狄利克雷分布概率密度函数的推导可知,对服从Gamma分布的独立同分布的随机变量,其归一化后的联合分布是狄利克雷分布:
p
(
X
)
=
Dir
(
α
1
,
…
,
α
d
)
X
=
1
Z
d
{
T
1
,
…
,
T
d
−
1
}
,
Z
d
=
∑
i
=
1
d
T
i
,
T
i
=
Γ
(
T
i
∣
α
i
,
1
)
\begin{gathered} p(\boldsymbol{X})=\operatorname{Dir}\left(\alpha_{1}, \ldots, \alpha_{d}\right) \\ \boldsymbol{X}=\frac{1}{Z_{d}}\left\{T_{1}, \ldots, T_{d-1}\right\}, Z_{d}=\sum_{i=1}^{d} T_{i}, T_{i}=\Gamma\left(T_{i} \mid \alpha_{i}, 1\right) \end{gathered}
p(X)=Dir(α1,…,αd)X=Zd1{T1,…,Td−1},Zd=i=1∑dTi,Ti=Γ(Ti∣αi,1)
4.3狄利克雷分布的例子
假设你手上有一枚六面骰子。你抛掷1000次,得到一个朝向的分布p1=
<
H
1
,
H
2
,
H
3
,
H
4
,
H
5
,
H
6
>
<H_1,H_2,H_3,H_4,H_5,H_6>
<H1,H2,H3,H4,H5,H6>。
H
1
H_1
H1是指数字1朝上次数,
H
2
H_2
H2是指数字2朝上次数,
H
3
,
H
4
,
H
5
,
H
6
H_3,H_4,H_5,H_6
H3,H4,H5,H6依次类推。你再抛掷1000次,又会得到一个朝向的分布
p
2
p_2
p2。重复N次之后,你就会得到N个布:
p
1
,
p
2
,
p
3
,
⋅
⋅
⋅
,
p
n
p_1,p_2,p_3,···,p_n
p1,p2,p3,⋅⋅⋅,pn。假如有这样一个分布D,能够描述抛这枚骰子1000次,得到
p
1
p_1
p1的概率是多少,那么我们就可以简单地把D理解为分布在
p
i
p_i
pi之上的分布。而
p
i
p_i
pi本身又是一个分布,所以D就是分布的分布。
因此,狄利克雷分布可以理解为多项式分布的分布。它的一个样本点是一个多项式分布。下图给出几种概率分布的关系。
图4 概率分布之间的关系
参考文献
[1]张波、商豪. 应用随机过程(第四版)[M]. 北京:中国人民大学出版社,2016.6:33-40.
[2]李航. 统计学习方法[M]. 北京:清华大学出版社,2020.6:385-389.
[3]https://www.datalearner.com/blog/1051505532393058
[4]杜增文. 基于狄利克雷回归的微博主题检测模型研究[D].中国科学院大学(中国科学院大学人工智能学院),2020.
[5]鲁春林. 基于排序集抽样下伽马分布参数的极大似然估计[D].吉首大学,2017.