深入理解:狄利克雷分布(Dirichlet Distribution)
在统计学和机器学习中,狄利克雷分布(Dirichlet Distribution)是一种重要的连续多变量概率分布,广泛应用于概率模型的参数估计和贝叶斯推断中。本文将从定义、性质、实际应用等方面,通俗易懂地介绍狄利克雷分布,并结合相关背景和数学公式深入剖析其重要性。
一、狄利克雷分布的定义
狄利克雷分布是多维空间上的概率分布,其值通常用来表示多个互斥事件的概率。简单来说,狄利克雷分布是多项分布参数的先验分布。
定义:
若随机变量 ( X = ( X 1 , X 2 , … , X K ) \boldsymbol{X} = (X_1, X_2, \dots, X_K) X=(X1,X2,…,XK) ) 满足:
- ( X i ≥ 0 X_i \geq 0 Xi≥0 );
- ( ∑ i = 1 K X i = 1 \sum_{i=1}^K X_i = 1 ∑i=1KXi=1 ),
则称 ( X \boldsymbol{X} X) 服从参数为 ( α = ( α 1 , α 2 , … , α K ) \boldsymbol{\alpha} = (\alpha_1, \alpha_2, \dots, \alpha_K) α=(α1,α2,…,αK) ) 的狄利克雷分布,记为:
X ∼ Dirichlet ( α ) \boldsymbol{X} \sim \text{Dirichlet}(\boldsymbol{\alpha}) X∼Dirichlet(α)
其概率密度函数为:
f ( X ; α ) = Γ ( ∑ i = 1 K α i ) ∏ i = 1 K Γ ( α i ) ∏ i = 1 K X i α i − 1 , 其中 X ∈ Δ K , f(\boldsymbol{X}; \boldsymbol{\alpha}) = \frac{\Gamma\left(\sum_{i=1}^K \alpha_i\right)}{\prod_{i=1}^K \Gamma(\alpha_i)} \prod_{i=1}^K X_i^{\alpha_i - 1}, \quad \text{其中 } \boldsymbol{X} \in \Delta_K, f(X;α)=∏i=1KΓ(αi)Γ(∑i=1Kαi)i=1∏KXiαi−1,其中 X∈ΔK,
这里:
- ( Δ K \Delta_K ΔK ) 是 ( K K K) 维单位单纯形,即所有分量非负且总和为 1 的向量集合;
- ( α i > 0 \alpha_i > 0 αi>0 ) 是参数,称为浓度参数;
- ( Γ ( ⋅ ) \Gamma(\cdot) Γ(⋅) ) 是伽马函数,定义为 ( Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t \Gamma(z) = \int_0^\infty t^{z-1} e^{-t} \, dt Γ(z)=∫0∞tz−1e−tdt )。
特殊情况:两维狄利克雷分布
当 (
K
=
2
K = 2
K=2) 时,狄利克雷分布退化为贝塔分布:
Beta
(
α
1
,
α
2
)
=
Dirichlet
(
α
1
,
α
2
)
,
\text{Beta}(\alpha_1, \alpha_2) = \text{Dirichlet}(\alpha_1, \alpha_2),
Beta(α1,α2)=Dirichlet(α1,α2),
其概率密度函数为:
f
(
x
;
α
1
,
α
2
)
=
Γ
(
α
1
+
α
2
)
Γ
(
α
1
)
Γ
(
α
2
)
x
α
1
−
1
(
1
−
x
)
α
2
−
1
.
f(x; \alpha_1, \alpha_2) = \frac{\Gamma(\alpha_1 + \alpha_2)}{\Gamma(\alpha_1) \Gamma(\alpha_2)} x^{\alpha_1 - 1} (1-x)^{\alpha_2 - 1}.
f(x;α1,α2)=Γ(α1)Γ(α2)Γ(α1+α2)xα1−1(1−x)α2−1.
这说明,贝塔分布是狄利克雷分布在二维空间上的特例。
二、狄利克雷分布的背景
狄利克雷分布最早由德国数学家彼得·古斯塔夫·狄利克雷(Peter Gustav Lejeune Dirichlet)提出,初衷是为了描述多项分布参数的随机性。具体背景如下:
-
多项分布的推广
多项分布描述了一个实验中多个可能结果的概率分布,比如骰子投掷的点数频率。狄利克雷分布则用来建模这些概率参数的分布。 -
贝叶斯推断
在贝叶斯统计中,狄利克雷分布常被用作多项分布参数的先验分布,结合观察数据后,可以推导出后验分布,用于概率参数的估计。 -
贝塔分布的多维扩展
贝塔分布是二项分布参数的先验分布,而狄利克雷分布是贝塔分布在多维空间的推广。
三、狄利克雷分布的性质
-
期望和方差
若 ( X ∼ Dirichlet ( α ) \boldsymbol{X} \sim \text{Dirichlet}(\boldsymbol{\alpha}) X∼Dirichlet(α) ),则:- 每个分量的期望为:
E [ X i ] = α i ∑ j = 1 K α j \mathbb{E}[X_i] = \frac{\alpha_i}{\sum_{j=1}^K \alpha_j} E[Xi]=∑j=1Kαjαi - 每个分量的方差为:
Var [ X i ] = α i ( ∑ j = 1 K α j − α i ) ( ∑ j = 1 K α j ) 2 ( ∑ j = 1 K α j + 1 ) \text{Var}[X_i] = \frac{\alpha_i (\sum_{j=1}^K \alpha_j - \alpha_i)}{(\sum_{j=1}^K \alpha_j)^2 (\sum_{j=1}^K \alpha_j + 1)} Var[Xi]=(∑j=1Kαj)2(∑j=1Kαj+1)αi(∑j=1Kαj−αi)
- 每个分量的期望为:
-
共轭性质
狄利克雷分布是多项分布的共轭先验分布。如果观测数据 ( n = ( n 1 , n 2 , … , n K ) \boldsymbol{n} = (n_1, n_2, \dots, n_K) n=(n1,n2,…,nK) ) 来自多项分布,且先验分布为 ( Dirichlet ( α ) \text{Dirichlet}(\boldsymbol{\alpha}) Dirichlet(α) ),则后验分布依然是狄利克雷分布:
P ( θ ∣ n ) = Dirichlet ( α 1 + n 1 , … , α K + n K ) P(\boldsymbol{\theta} \mid \boldsymbol{n}) = \text{Dirichlet}(\alpha_1 + n_1, \dots, \alpha_K + n_K) P(θ∣n)=Dirichlet(α1+n1,…,αK+nK) -
边缘分布是贝塔分布
对于狄利克雷分布中的任意两个分量 ( X i X_i Xi) 和 ( X j X_j Xj),它们的边缘分布是贝塔分布:
( X i , X j ) ∼ Beta ( α i , α j ) . (X_i, X_j) \sim \text{Beta}(\alpha_i, \alpha_j). (Xi,Xj)∼Beta(αi,αj).
四、狄利克雷分布的应用
-
主题模型
在自然语言处理的主题模型(如 LDA,潜在狄利克雷分配)中,狄利克雷分布用来建模文档中主题的分布和主题中单词的分布。 -
市场分析
用于建模消费者在不同产品类别上的消费分布。例如,一个消费者在食品、服装和电子产品上的支出比例可以用狄利克雷分布建模。 -
推荐系统
用来表示用户对不同物品类别的偏好分布。
五、实际例子
例子 1:骰子投掷
假设我们要研究一个六面骰子,每一面的出现概率 ( θ = ( θ 1 , θ 2 , … , θ 6 ) \boldsymbol{\theta} = (\theta_1, \theta_2, \dots, \theta_6) θ=(θ1,θ2,…,θ6) ) 是未知的。我们可以用狄利克雷分布 ( Dirichlet ( 1 , 1 , 1 , 1 , 1 , 1 ) \text{Dirichlet}(1, 1, 1, 1, 1, 1) Dirichlet(1,1,1,1,1,1) ) 作为先验分布,表示每一面出现的概率均匀分布。
观察到结果 (
n
=
(
10
,
20
,
15
,
25
,
18
,
12
)
n = (10, 20, 15, 25, 18, 12)
n=(10,20,15,25,18,12) ) 后,后验分布为:
Dirichlet
(
11
,
21
,
16
,
26
,
19
,
13
)
\text{Dirichlet}(11, 21, 16, 26, 19, 13)
Dirichlet(11,21,16,26,19,13)
例子 2:用户偏好建模
假设一个用户对三种类型的电影(动作、喜剧、爱情)的偏好 ( ( θ 1 , θ 2 , θ 3 ) (\theta_1, \theta_2, \theta_3) (θ1,θ2,θ3) ) 满足狄利克雷分布 ( Dirichlet ( 2 , 3 , 5 ) \text{Dirichlet}(2, 3, 5) Dirichlet(2,3,5) )。此时:
- 用户平均偏好为:
E [ θ 1 ] = 2 2 + 3 + 5 = 0.2 , E [ θ 2 ] = 0.3 , E [ θ 3 ] = 0.5 \mathbb{E}[\theta_1] = \frac{2}{2+3+5} = 0.2, \quad \mathbb{E}[\theta_2] = 0.3, \quad \mathbb{E}[\theta_3] = 0.5 E[θ1]=2+3+52=0.2,E[θ2]=0.3,E[θ3]=0.5
通过观察用户的观影记录,可以进一步调整后验分布来优化推荐算法。
六、总结
狄利克雷分布是多项分布参数的先验分布,在贝叶斯统计和机器学习中扮演着重要角色。它的定义简单,但数学性质丰富,并在自然语言处理、市场分析和推荐系统等领域有着广泛应用。
狄利克雷分布的形式化定义与直观理解
当我们说随机变量 ( X = ( X 1 , X 2 , … , X K ) \boldsymbol{X} = (X_1, X_2, \dots, X_K) X=(X1,X2,…,XK) ) 满足以下两个条件:
- ( X i ≥ 0 X_i \geq 0 Xi≥0 )(每个分量均为非负);
- ( ∑ i = 1 K X i = 1 \sum_{i=1}^K X_i = 1 ∑i=1KXi=1 )(所有分量的和为 1),
则可以将 ( X \boldsymbol{X} X ) 看作 ( K K K ) 个互斥事件的概率分布。这种情况下,如果 ( X \boldsymbol{X} X ) 的分布受一组参数 ( α = ( α 1 , α 2 , … , α K ) \boldsymbol{\alpha} = (\alpha_1, \alpha_2, \dots, \alpha_K) α=(α1,α2,…,αK) ) 控制,则称 ( X \boldsymbol{X} X ) 服从参数为 ( α \boldsymbol{\alpha} α ) 的狄利克雷分布,记为:
X ∼ Dirichlet ( α ) , \boldsymbol{X} \sim \text{Dirichlet}(\boldsymbol{\alpha}), X∼Dirichlet(α),
其概率密度函数(PDF)为:
f
(
X
;
α
)
=
Γ
(
∑
i
=
1
K
α
i
)
∏
i
=
1
K
Γ
(
α
i
)
∏
i
=
1
K
X
i
α
i
−
1
,
其中
X
∈
Δ
K
.
f(\boldsymbol{X}; \boldsymbol{\alpha}) = \frac{\Gamma\left(\sum_{i=1}^K \alpha_i\right)}{\prod_{i=1}^K \Gamma(\alpha_i)} \prod_{i=1}^K X_i^{\alpha_i - 1}, \quad \text{其中 } \boldsymbol{X} \in \Delta_K.
f(X;α)=∏i=1KΓ(αi)Γ(∑i=1Kαi)i=1∏KXiαi−1,其中 X∈ΔK.
参数 ( α \boldsymbol{\alpha} α ) 的解释
- (
α
i
>
0
\alpha_i > 0
αi>0 ) 是狄利克雷分布的浓度参数。
- 如果 ( α i > 1 \alpha_i > 1 αi>1 ),则 ( X i X_i Xi ) 更可能接近均值;
- 如果 ( α i < 1 \alpha_i < 1 αi<1 ),则 ( X i X_i Xi ) 更倾向于接近 0 或 1。
- (
∑
i
=
1
K
α
i
\sum_{i=1}^K \alpha_i
∑i=1Kαi ) 决定了分布的整体浓度:
- 当 ( ∑ i = 1 K α i \sum_{i=1}^K \alpha_i ∑i=1Kαi ) 较大时,分量之间差异较小,分布更集中;
- 当 ( ∑ i = 1 K α i \sum_{i=1}^K \alpha_i ∑i=1Kαi ) 较小时,分布更稀疏,分量之间差异更大。
( X \boldsymbol{X} X ) 的支持域
狄利克雷分布定义在 (
K
K
K ) 维单位单纯形 (
Δ
K
\Delta_K
ΔK ) 上,表示如下:
Δ
K
=
{
X
∈
R
K
:
X
i
≥
0
,
∑
i
=
1
K
X
i
=
1
}
.
\Delta_K = \left\{ \boldsymbol{X} \in \mathbb{R}^K : X_i \geq 0, \sum_{i=1}^K X_i = 1 \right\}.
ΔK={X∈RK:Xi≥0,i=1∑KXi=1}.
这意味着 ( X \boldsymbol{X} X ) 是一个 ( K K K ) 维概率向量,每个分量代表某种事件的概率,其总和始终为 1。
狄利克雷分布的概率密度函数的分解与理解
1. 伽马函数的作用:
Γ
(
z
)
=
∫
0
∞
t
z
−
1
e
−
t
d
t
,
当
z
>
0.
\Gamma(z) = \int_0^\infty t^{z-1} e^{-t} \, dt, \quad \text{当 } z > 0.
Γ(z)=∫0∞tz−1e−tdt,当 z>0.
伽马函数是阶乘的推广,满足 (
Γ
(
n
)
=
(
n
−
1
)
!
\Gamma(n) = (n-1)!
Γ(n)=(n−1)! ) (当 (
n
n
n ) 为正整数时)。
在狄利克雷分布的概率密度函数中:
Γ
(
∑
i
=
1
K
α
i
)
∏
i
=
1
K
Γ
(
α
i
)
\frac{\Gamma\left(\sum_{i=1}^K \alpha_i\right)}{\prod_{i=1}^K \Gamma(\alpha_i)}
∏i=1KΓ(αi)Γ(∑i=1Kαi)
是一个归一化常数,确保概率密度函数积分为 1。
2. 指数项 ( X i α i − 1 X_i^{\alpha_i - 1} Xiαi−1 ):
这一项反映了每个分量 ( X i X_i Xi ) 的权重,权重由参数 ( α i \alpha_i αi ) 决定。当 ( α i > 1 \alpha_i > 1 αi>1 ) 时,( X i X_i Xi ) 更倾向于取接近均值的值;当 ( α i < 1 \alpha_i < 1 αi<1 ) 时,( X i X_i Xi ) 更倾向于取接近边界(接近 0 或 1)的值。
3. 总体结构:
通过伽马函数和指数项的结合,狄利克雷分布形成了一种灵活的多维分布,可以表达任意概率分布参数的先验信息。
一个直观的例子:三种颜色的球
假设一个箱子中有三种颜色的球:红、绿、蓝。我们不知道每种颜色球的比例,记为 (
θ
=
(
θ
red
,
θ
green
,
θ
blue
)
\boldsymbol{\theta} = (\theta_\text{red}, \theta_\text{green}, \theta_\text{blue})
θ=(θred,θgreen,θblue) ),满足:
θ
red
+
θ
green
+
θ
blue
=
1
,
且
θ
red
,
θ
green
,
θ
blue
≥
0.
\theta_\text{red} + \theta_\text{green} + \theta_\text{blue} = 1, \quad \text{且 } \theta_\text{red}, \theta_\text{green}, \theta_\text{blue} \geq 0.
θred+θgreen+θblue=1,且 θred,θgreen,θblue≥0.
如果我们希望建模这些比例的分布,可以用狄利克雷分布:
θ
∼
Dirichlet
(
α
red
,
α
green
,
α
blue
)
,
\boldsymbol{\theta} \sim \text{Dirichlet}(\alpha_\text{red}, \alpha_\text{green}, \alpha_\text{blue}),
θ∼Dirichlet(αred,αgreen,αblue),
这里 (
α
red
,
α
green
,
α
blue
\alpha_\text{red}, \alpha_\text{green}, \alpha_\text{blue}
αred,αgreen,αblue ) 表示我们对每种颜色比例的先验信息。
特例:狄利克雷分布退化为贝塔分布
当 (
K
=
2
K = 2
K=2 ) 时,狄利克雷分布退化为贝塔分布。此时:
X
=
(
X
1
,
X
2
)
,
X
1
+
X
2
=
1
,
\boldsymbol{X} = (X_1, X_2), \quad X_1 + X_2 = 1,
X=(X1,X2),X1+X2=1,
服从 (
Dirichlet
(
α
1
,
α
2
)
\text{Dirichlet}(\alpha_1, \alpha_2)
Dirichlet(α1,α2) ) 的分布,其概率密度函数为:
f
(
X
1
;
α
1
,
α
2
)
=
Γ
(
α
1
+
α
2
)
Γ
(
α
1
)
Γ
(
α
2
)
X
1
α
1
−
1
(
1
−
X
1
)
α
2
−
1
.
f(X_1; \alpha_1, \alpha_2) = \frac{\Gamma(\alpha_1 + \alpha_2)}{\Gamma(\alpha_1)\Gamma(\alpha_2)} X_1^{\alpha_1 - 1} (1-X_1)^{\alpha_2 - 1}.
f(X1;α1,α2)=Γ(α1)Γ(α2)Γ(α1+α2)X1α1−1(1−X1)α2−1.
这正是贝塔分布的概率密度函数:
Beta
(
α
1
,
α
2
)
=
Dirichlet
(
α
1
,
α
2
)
.
\text{Beta}(\alpha_1, \alpha_2) = \text{Dirichlet}(\alpha_1, \alpha_2).
Beta(α1,α2)=Dirichlet(α1,α2).
解释:
- 贝塔分布描述了单一概率的分布,例如硬币正面出现的概率;
- 狄利克雷分布则是贝塔分布在多维概率空间的推广。
小结
在狄利克雷分布中:
- ( α \boldsymbol{\alpha} α ) 决定了分布的形状,体现了我们对参数的先验信念;
- 贝塔分布是狄利克雷分布的二维特例。
在统计学中,随机变量的分量是指随机变量的各个组成部分。对于一个多维随机变量 ( X = ( X 1 , X 2 , … , X K ) \boldsymbol{X} = (X_1, X_2, \dots, X_K) X=(X1,X2,…,XK) ),每个 ( X i X_i Xi ) 是这个随机变量中的一个分量,可以表示某个具体的随机事件或特性。分量是相对独立的,但整体受到某些约束(例如和为 1,或者非负性等)。
多维随机变量的分量解释
-
多维随机变量:
当我们描述一个复杂的现象时,可能需要多个数值来刻画。例如,一个箱子里不同颜色球的比例,用 ( X = ( X red , X green , X blue ) \boldsymbol{X} = (X_\text{red}, X_\text{green}, X_\text{blue}) X=(Xred,Xgreen,Xblue) ) 表示,这就是一个多维随机变量。 -
分量 ( X i X_i Xi ):
( X i X_i Xi ) 是多维随机变量中的一个具体成分。例如,( X red X_\text{red} Xred ) 表示红球的比例,( X green X_\text{green} Xgreen ) 表示绿球的比例。每个分量在某些限制下取值(如非负性,总和为 1)。
示例:骰子投掷
假设我们投掷一个 6 面骰子,记录每一面出现的概率。这可以用一个随机变量 ( X = ( X 1 , X 2 , … , X 6 ) \boldsymbol{X} = (X_1, X_2, \dots, X_6) X=(X1,X2,…,X6) ) 来表示:
- ( X 1 X_1 X1 ) 表示骰子出现“1”的概率;
- ( X 2 X_2 X2 ) 表示骰子出现“2”的概率;
- …
- ( X 6 X_6 X6 ) 表示骰子出现“6”的概率。
性质:
- 每个分量 ( X i X_i Xi ) 表示一个具体事件(某一面出现的概率)。
- ( X i ≥ 0 X_i \geq 0 Xi≥0 ),因为概率不能为负数。
- ( ∑ i = 1 6 X i = 1 \sum_{i=1}^6 X_i = 1 ∑i=16Xi=1 ),因为所有可能事件的概率总和为 1。
假设分布:
如果我们用狄利克雷分布对 (
X
\boldsymbol{X}
X ) 建模,可以写作:
X
∼
Dirichlet
(
α
1
,
α
2
,
…
,
α
6
)
,
\boldsymbol{X} \sim \text{Dirichlet}(\alpha_1, \alpha_2, \dots, \alpha_6),
X∼Dirichlet(α1,α2,…,α6),
其中 (
α
i
\alpha_i
αi ) 表示我们对每个面的先验信念。
示例:市场份额
假设我们有一个市场,包含三家企业,它们的市场份额分别为 ( X 1 , X 2 , X 3 X_1, X_2, X_3 X1,X2,X3 )。这里:
- ( X 1 X_1 X1 ) 是企业 A 的市场份额;
- ( X 2 X_2 X2 ) 是企业 B 的市场份额;
- ( X 3 X_3 X3 ) 是企业 C 的市场份额。
性质:
- ( X i ≥ 0 X_i \geq 0 Xi≥0 ):每个企业的市场份额是非负的。
- ( X 1 + X 2 + X 3 = 1 X_1 + X_2 + X_3 = 1 X1+X2+X3=1 ):市场份额的总和为 100%。
假设分布:
可以用狄利克雷分布对 (
(
X
1
,
X
2
,
X
3
)
(X_1, X_2, X_3)
(X1,X2,X3) ) 建模:
X
∼
Dirichlet
(
α
1
,
α
2
,
α
3
)
,
\boldsymbol{X} \sim \text{Dirichlet}(\alpha_1, \alpha_2, \alpha_3),
X∼Dirichlet(α1,α2,α3),
这里 (
α
1
,
α
2
,
α
3
\alpha_1, \alpha_2, \alpha_3
α1,α2,α3 ) 反映了我们对各企业市场份额的先验信念。例如,如果 (
α
1
>
α
2
\alpha_1 > \alpha_2
α1>α2 ),我们相信企业 A 的市场份额更大。
总结
- 随机变量的分量 ( X i X_i Xi ) 是多维随机变量的具体组成部分,每个分量都有自己的含义。
- 分量的取值受到分布的约束,例如非负性、和为 1 等。
- 通过实际例子(骰子、市场份额等),可以更直观地理解随机变量的分量及其建模意义。
后记
2024年11月30日12点23分于上海,在GPT4o大模型辅助下完成。