马尔可夫网络
马尔可夫网络(也叫做马尔可夫随机场、概率无向图模型)与贝叶斯网络有相似之处,它也可用于表示随机变量之间的依赖关系。但它又叶斯网络有所不同。一方面它可以表示贝叶斯网络无法表示的一些依赖关系,如循环依赖;另一方面,它不能表示贝叶斯网络能够表示的某些关系,如推导关系。
马尔可夫性质
马尔可夫性质指的是将一个随机变量状态序列按时间先后顺序展开后,在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定随机变量现在状态时,它的取值与过去状态(即状态转移的历史路径)无关,那么此随机过程即具有马尔可夫性质。
在马尔可夫随机场中定义全局马尔可夫性、局部马尔可夫性和成对马尔可夫性。
(1)全局马尔可夫性:设结点集合
A
A
A,
B
B
B 是在无向图
G
G
G 中被结点
C
C
C 分开的任意结点集合,结点集合
A
A
A,
B
B
B 和
C
C
C 所对应的随机变量组分别是
Y
A
Y_A
YA,
Y
B
Y_B
YB 和
Y
C
Y_C
YC 。全局马尔可夫性是指在给定随机变量组
Y
C
Y_C
YC 条件下随机变量组
Y
A
Y_A
YA 和
Y
B
Y_B
YB 是条件独立的,即
P
(
Y
A
,
Y
B
∣
Y
C
)
=
P
(
Y
A
,
Y
C
)
P
(
Y
B
∣
Y
C
)
P(Y_A,Y_B|Y_C)=P(Y_A,Y_C)P(Y_B|Y_C)
P(YA,YB∣YC)=P(YA,YC)P(YB∣YC)
(2)局部马尔可夫性:设
v
∈
V
v\in V
v∈V 是无向图
G
G
G 中任意一个结点,
W
W
W 是与
v
v
v 有边连接的所有结点,
O
O
O 是
v
v
v ,
W
W
W 以外的其他所有结点。
v
v
v 表示的随机变量是
Y
v
Y_v
Yv ,
W
W
W 表示的随机变量组是
Y
W
Y_W
YW ,
O
O
O 表示的随机变量组是
Y
O
Y_O
YO 。局部马尔可夫性指的是在给定随机变量组
Y
W
Y_W
YW 的条件下随机变量
Y
v
Y_v
Yv 与 随机变量组
Y
O
Y_O
YO 是独立的,即
P
(
Y
v
,
Y
O
∣
Y
W
)
=
P
(
Y
v
∣
Y
W
)
P
(
Y
O
∣
Y
W
)
P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W)
P(Yv,YO∣YW)=P(Yv∣YW)P(YO∣YW)
(3)成对马尔可夫性:设
u
u
u 和
v
v
v 是无向图
G
G
G 中任意两个没有边连接的结点,结点
u
u
u 和
v
v
v 分布对应随机变量
Y
u
Y_u
Yu 和
Y
v
Y_v
Yv 。其他所有结点为
O
O
O ,对于的随机变量组是
Y
O
Y_O
YO 。成对马尔可夫性是指给定随机变量组
Y
O
Y_O
YO 的条件下随机变量
Y
u
Y_u
Yu 和
Y
v
Y_v
Yv 是条件独立的,即
P
(
Y
u
,
Y
v
∣
Y
O
)
=
P
(
Y
u
∣
Y
P
)
P
(
Y
v
∣
Y
O
)
P(Y_u,Y_v|Y_O)=P(Y_u|Y_P)P(Y_v|Y_O)
P(Yu,Yv∣YO)=P(Yu∣YP)P(Yv∣YO)
定义
马尔可夫网络是一组有马尔可夫性质的随机变量的联合概率分布模型,它由一个无向图 G = ( V , E ) G=(V,E) G=(V,E) 表示和定义于 G G G 上的势函数组成。在图 G G G 中,结点表示随机变量,边表示随机变量之间的依赖关系。
无向图 G G G 中任何两个结点均有边连接的结点子集(完全子图)称为团。若 C C C 是无向图 G G G 的一个团,且不能加进任何一个 G G G 的结点使其成为一个更大的图案,则称此 C C C 为最大团。下图中,由 2 个结点构成的团有 5 个: { x 1 , x 2 } \left\{ x_1,x_2 \right\} {x1,x2}, { x 1 , x 3 } \left\{ x_1,x_3 \right\} {x1,x3}, { x 1 , x 4 } \left\{ x_1,x_4 \right\} {x1,x4}, { x 2 , x 3 } \left\{ x_2,x_3 \right\} {x2,x3} 和 { x 3 , x 4 } \left\{ x_3,x_4 \right\} {x3,x4}。有 2 个最大团: { x 1 , x 2 , x 3 } \left\{ x_1,x_2,x_3 \right\} {x1,x2,x3} 和 { x 1 , x 3 , x 4 } \left\{ x_1,x_3,x_4 \right\} {x1,x3,x4} ,而 { x 1 , x 2 , x 3 , x 4 } \left\{ x_1,x_2,x_3,x_4 \right\} {x1,x2,x3,x4} 不是一个团,因为 x 2 x_2 x2 和 x 4 x_4 x4 没有连接。
势函数
在无向图中,对每个团定义一个势函数,用来表示团内随机变量之间的相关关系。势函数取自物理学中的势能概念,势能在物理中指的是储存于一个系统内潜在的能量。在无向图中的势函数使团内随机变量偏向于具有某些相关关系。例如,假设团
{
x
1
,
x
2
}
\left\{ x_1,x_2 \right\}
{x1,x2} 具有势函数
ψ
(
x
1
,
x
2
)
=
{
1.5
if
x
1
=
x
2
,
0.1
if
o
t
h
e
r
w
i
s
e
.
\psi(x_1,x_2)= \left\{\begin{matrix} 1.5 & \text{ if }x_1=x_2, \\ 0.1 & \text{ if } otherwise. \end{matrix}\right.
ψ(x1,x2)={1.50.1 if x1=x2, if otherwise.
则说明该团的势函数偏向使
x
1
x_1
x1 和
x
2
x_2
x2 具有相同的取值。势函数刻画了局部变量之间的相关关系,它应该是非负的函数,为了满足非负性常用指数函数来定义势函数,即
ψ
(
x
)
=
e
−
H
(
x
)
\psi(x)=e^{-H(x)}
ψ(x)=e−H(x)
H
(
x
)
H(x)
H(x) 是一个定义在变量
x
x
x 上的实值函数,常见形式为:
H
(
x
)
=
∑
u
,
v
∈
Q
,
u
≠
v
α
u
v
x
u
x
v
+
∑
v
∈
Q
β
v
x
v
H(x) =\sum_{u,v\in Q,u\neq v}\alpha_{uv}x_ux_v + \sum_{v\in Q}\beta_vx_v
H(x)=u,v∈Q,u̸=v∑αuvxuxv+v∈Q∑βvxv
上式中的
Q
Q
Q 是团内所有结点的集合,第一项需考虑所有结点的关系,第二项只要考虑单结点。
α
u
v
\alpha_{uv}
αuv 和
β
v
\beta_v
βv 是需要通过学习来确定的参数。
因子分解
在概率图模型中,更重要的是如何求出联合概率分布。我们将马尔可夫网络中的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为因子分解。
给定马尔可夫网络,设其无向图为
G
G
G ,
C
C
C 为
G
G
G 上的最大团集合,
Y
C
Y_C
YC 表示
C
C
C 对应的随机变量。那么马尔可夫网络的联合概率分布
P
(
Y
)
P(Y)
P(Y) 可写作图中所有最大团
C
C
C 上的势函数
ψ
C
(
Y
C
)
\psi_C(Y_C)
ψC(YC) 的乘积形式,即吉布斯分布(Gibbs distribution)
P
(
Y
)
=
1
Z
∏
C
ψ
C
(
Y
C
)
P(Y)=\frac{1}{Z}\prod_{C}\psi_C(Y_C)
P(Y)=Z1C∏ψC(YC)
其中,
Z
Z
Z 是规范化因子,由式
Z
=
∑
Y
∏
C
ψ
C
(
Y
C
)
Z=\sum_{Y}\prod_{C}\psi_C(Y_C)
Z=Y∑C∏ψC(YC)
给出,它保证了
P
(
Y
)
P(Y)
P(Y) 构成一个概率分布。
参考资料
- 宗成庆.统计自然语言处理(第2版). 统计自然语言处理. 2008.
- 李航. 统计学习方法. 2012.
- 周志华.机器学习.2016
- 机器之心.读懂概率图模型:你需要从基本概念和参数估计开始