本文是将文章【概率无向图模型的因子分解】中的公式单独拿出来做一个详细的解析。
公式 (11.5) 是关于概率无向图模型的因子分解,这是条件随机场等无向图模型的核心概率分布公式。接下来,对公式 (11.5) 进行逐步拆解和详细解释。
公式内容
P ( Y ) = 1 Z ∏ C ψ C ( Y C ) P(Y) = \frac{1}{Z} \prod_{C} \psi_C(Y_C) P(Y)=Z1C∏ψC(YC)
公式中的符号解释
-
P ( Y ) P(Y) P(Y):
- 随机变量 Y Y Y 的联合概率分布,定义在无向图模型上。
- Y Y Y 表示所有随机变量的集合(例如 Y = { Y 1 , Y 2 , … , Y n } Y = \{Y_1, Y_2, \dots, Y_n\} Y={Y1,Y2,…,Yn})。
-
Z Z Z:
- 归一化因子(normalization factor),用于将 P ( Y ) P(Y) P(Y) 归一化为合法的概率分布。
- 公式为:
Z = ∑ Y ∏ C ψ C ( Y C ) Z = \sum_{Y} \prod_{C} \psi_C(Y_C) Z=Y∑C∏ψC(YC)
其中, Z Z Z 是对所有可能的 Y Y Y 取值进行求和后的结果,确保 P ( Y ) P(Y) P(Y) 满足概率和为 1 的性质。
-
∏ C \prod_{C} ∏C:
- 表示对图中所有的最大团 C C C 取乘积。
- C C C 是无向图 G G G 中的最大团(maximal clique),定义为图中任何一组完全子图(节点之间两两相连),且不能再加入更多节点使其仍为完全子图。
-
ψ C ( Y C ) \psi_C(Y_C) ψC(YC):
- 定义在最大团 C C C 上的势函数(potential function)。
- Y C Y_C YC 表示最大团 C C C 中所有随机变量的集合。
- 势函数
ψ
C
(
Y
C
)
\psi_C(Y_C)
ψC(YC) 是非负函数,通常表示最大团内变量的局部依赖关系,常定义为:
ψ C ( Y C ) = exp ( − E ( Y C ) ) \psi_C(Y_C) = \exp(-E(Y_C)) ψC(YC)=exp(−E(YC))
其中 E ( Y C ) E(Y_C) E(YC) 是能量函数,表示 Y C Y_C YC 的局部特征。
公式的含义
-
因子分解:
- P ( Y ) P(Y) P(Y) 是定义在无向图上的联合概率分布,通过图的结构将复杂的联合分布分解为若干个定义在最大团上的局部势函数 ψ C ( Y C ) \psi_C(Y_C) ψC(YC) 的乘积。
- 每个最大团只考虑其内部的随机变量 Y C Y_C YC,这样可以降低计算复杂度。
-
归一化:
- Z Z Z 确保联合概率分布 P ( Y ) P(Y) P(Y) 是合法的概率分布,满足 ∑ Y P ( Y ) = 1 \sum_Y P(Y) = 1 ∑YP(Y)=1。
-
最大团的重要性:
- 最大团 C C C 是无向图中能够表示完全依赖关系的最小单元。
- P ( Y ) P(Y) P(Y) 的分解仅依赖于这些最大团上的随机变量,而非整个图的所有变量。
背景与原理
-
无向图模型:
- 无向图 G = ( V , E ) G = (V, E) G=(V,E) 用来表示随机变量之间的依赖关系。
- 节点 V V V 表示随机变量 Y = { Y 1 , Y 2 , … , Y n } Y = \{Y_1, Y_2, \dots, Y_n\} Y={Y1,Y2,…,Yn}。
- 边 E E E 表示变量之间的依赖关系。
-
最大团(clique):
- 图 G G G 中的一个最大团是一个完全子图(所有节点之间都有边相连),并且无法再加入更多节点保持完全子图性质。
- 例如,在图 11.3 中,最大团为:
{ Y 2 , Y 3 } , { Y 4 , Y 2 } \{Y_2, Y_3\}, \quad \{Y_4, Y_2\} {Y2,Y3},{Y4,Y2}
-
分解思路:
- 对于复杂的联合概率分布 P ( Y ) P(Y) P(Y),直接建模可能过于复杂。
- 根据无向图的结构,概率分布可以分解为由最大团定义的局部函数的乘积形式(势函数),从而简化建模和计算。
举例说明
假设一个无向图模型包含 4 个随机变量 Y = { Y 1 , Y 2 , Y 3 , Y 4 } Y = \{Y_1, Y_2, Y_3, Y_4\} Y={Y1,Y2,Y3,Y4},其图结构如图 11.3 所示:
Y_1 Y_2 — Y_3
|
Y_4
- 最大团有两个:
{ Y 2 , Y 3 } , { Y 2 , Y 4 } \{Y_2, Y_3\}, \quad \{Y_2, Y_4\} {Y2,Y3},{Y2,Y4}
根据公式 (11.5),联合概率分布分解为:
P
(
Y
)
=
1
Z
ψ
{
Y
2
,
Y
3
}
(
Y
2
,
Y
3
)
⋅
ψ
{
Y
2
,
Y
4
}
(
Y
2
,
Y
4
)
P(Y) = \frac{1}{Z} \psi_{\{Y_2, Y_3\}}(Y_2, Y_3) \cdot \psi_{\{Y_2, Y_4\}}(Y_2, Y_4)
P(Y)=Z1ψ{Y2,Y3}(Y2,Y3)⋅ψ{Y2,Y4}(Y2,Y4)
其中:
- ψ { Y 2 , Y 3 } \psi_{\{Y_2, Y_3\}} ψ{Y2,Y3}:表示 Y 2 , Y 3 Y_2, Y_3 Y2,Y3 的局部势函数,捕捉这两个变量的依赖关系。
- ψ { Y 2 , Y 4 } \psi_{\{Y_2, Y_4\}} ψ{Y2,Y4}:表示 Y 2 , Y 4 Y_2, Y_4 Y2,Y4 的局部势函数,捕捉这两个变量的依赖关系。
- Z Z Z:归一化因子,用于确保概率分布 P ( Y ) P(Y) P(Y) 的总和为 1。
应用
-
条件随机场(CRF):
- CRF 是定义在无向图上的条件概率分布,公式 (11.5) 是 CRF 概率分布的基础。
- 势函数 ψ C ( Y C ) \psi_C(Y_C) ψC(YC) 在 CRF 中通过输入序列 X X X 和特征函数来建模。
-
马尔可夫随机场(MRF):
- P ( Y ) P(Y) P(Y) 的分解形式也是马尔可夫随机场的基础,用于描述图像处理、自然语言处理中的概率分布。
-
高效推断:
- 最大团分解降低了联合概率建模的复杂度,便于后续的推断和计算(如使用动态规划或其他算法)。
总结
公式 (11.5) 的核心思想是利用无向图的最大团分解,将复杂的联合概率分布 P ( Y ) P(Y) P(Y) 转化为多个局部势函数的乘积形式,同时通过归一化因子 Z Z Z 保证分布的合法性。这种分解是条件随机场、马尔可夫随机场等无向图模型的核心思想,可以有效捕捉随机变量之间的依赖关系。