马尔可夫逻辑网络MLN(Markov Logic Network)
马尔可夫逻辑网络与贝叶斯网络有相似之处,也用于表示变量之间的依赖关系。但是,它又和贝叶斯网络有所不同。
不同点:
- 它可以表示贝叶斯网络无法表示的一些依赖关系,如循环关系。
- 他不能表示贝叶斯网络能够表示的某些关系,如推导关系。
马尔可夫性质:
马尔可夫性质(英语:Markov property)是概率论中的一个概念,因为俄国数学家安德雷·马尔可夫得名。当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。
马尔科夫网络是一组具有马尔可夫性质的随机变量的联合概率分布模型,它是由一个无向图G和定义于G上的势函数组成。一个无向图 G = ( V , E ) G=(V,E) G=(V,E)每个顶点 x i ∈ V x_i\in V xi∈V表示在集合 X X X上的一个随机变量,每条边 x i , x j ∈ E ( i ≠ j ) {x_i,x_j}\in E(i≠j) xi,xj∈E(i=j)表示直接相连的两个随机变量 x i x_i xi和 x j x_j xj之间的一种依赖关系。为了便于叙述,首先给出如下定义。
定义:假设两个图分别为 G = < V , E > G=<V,E> G=<V,E>和 G s = < V s , E s > G_s=<V_s,E_s> Gs=<Vs,Es>,如果 V s ⊆ V V_s \subseteq V Vs⊆V,并且有 E s ⊆ E E_s \subseteq E Es⊆E,那么,成 G s G_s Gs为 G G G的子图。
团:
如果一个子图的任意两个结点之间都有边相连,那么这个子图就是一个完全子图(complete subgraph),一个全子图又称为一个团(clique)。一个团的完全子图称为子团。如下图,结点 x 1 x_1 x1和 x 4 x_4 x4及其边 x 1 x 4 x_1x_4 x1x4构成一个完全子图,结点 x 3 x_3 x3和 x 4 x_4 x4及其边 x 3 x 4 x_3x_4 x3x4,以及结点 x 1 x_1 x1、 x 3 x_3 x3、 x 4 x_4 x4及其边 x 1 x 4 x_1x_4 x1x4、 x 1 x 3 x_1x_3 x1x3和 x 3 x 4 x_3x_4 x3x4也分别是一个完全子图,而结点 x 2 x_2 x2、 x 3 x_3 x3、 x 4 x_4 x4构成的图则不是完全子图。
团势能:
在无向图中,不用条件概率密度对模型进行参数化,而是使用有一种称为团势能(clique potential)的参数化因子。所谓团势能又称为团势能函数(clique potential function)或简称势函数,是定义在一个团上的非负实函数。每个团都对应着一个势函数,表示团的一个状态。
能量函数:
一般用
x
C
x_C
xC来表示团C中所有的结点,用
ϕ
(
x
c
)
\phi(x_c)
ϕ(xc)表示团势能。如图中,两个团可以表示为
x
c
1
=
{
x
1
,
x
2
}
\mathbf{x}_{c_1} = \{x_1,x_2\}
xc1={x1,x2},
x
c
2
=
{
x
1
,
x
3
,
x
4
}
\mathbf{x}_{c_2} = \{x_1,x_3,x_4\}
xc2={x1,x3,x4}。由于定义中要求势能函数
ϕ
(
x
c
)
\phi (\mathbf{x}_c)
ϕ(xc)非负,所以一般将
ϕ
(
x
c
)
\phi (x_c)
ϕ(xc)定义为:
ϕ
(
x
c
)
=
exp
{
−
E
(
x
c
)
}
\phi(\mathbf{x}_c) = \exp \{-E(\mathbf{x}_c)\}
ϕ(xc)=exp{−E(xc)},其中
{
E
(
x
c
)
}
\{E(x_c)\}
{E(xc)}称为
x
c
x_c
xc的能量函数(energy function)。
马尔科夫网络公式:
定义:如果无向图模型能够表示成一系列在 G G G的最大团(们)上的非负函数乘积的形式,这个无向图模型的概率分布P(X)就称为Gibbs分布。即:
P ( X ) = 1 Z ∏ c ∈ C G ϕ c ( x C c ) P(X)=\frac{1}{Z} \prod_{c \in C_G}\phi_{c}\left(\mathbf{x}_{C_{c}}\right) P(X)=Z1c∈CG∏ϕc(xCc)
如果分布
P
ϕ
(
x
1
,
x
2
,
…
,
x
n
)
P_\phi(x_1,x_2,…,x_n)
Pϕ(x1,x2,…,xn)的图模型可以表示为一个马尔可夫网络
H
H
H,当
C
C
C时
H
H
H上完全子图的集合时,我们说
H
H
H上的分布
P
ϕ
(
x
1
,
x
2
,
…
,
x
n
)
P_\phi(x_1,x_2,…,x_n)
Pϕ(x1,x2,…,xn)可以用
C
C
C的团势能函数
ϕ
(
x
c
)
\phi (\mathbf{x}_c)
ϕ(xc)进行因子化:
ϕ
=
{
ϕ
1
(
x
c
1
)
,
…
,
ϕ
K
(
x
c
K
)
}
\phi =\{ \phi_1 (\mathbf{x}_{c_1}),…,\phi_K (\mathbf{x}_{c_K})\}
ϕ={ϕ1(xc1),…,ϕK(xcK)}。
P
ϕ
(
x
1
,
x
2
,
…
,
x
n
)
P_\phi(x_1,x_2,…,x_n)
Pϕ(x1,x2,…,xn)可以看做
H
H
H上的一个吉布斯分布(Gibbs distribution),其概率分布密度为:
p
(
x
1
,
x
2
,
⋯
,
x
n
)
=
1
Z
∏
i
=
1
K
ϕ
i
(
x
C
i
)
p\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\frac{1}{Z} \prod_{i=1}^{K} \phi_{i}\left(\mathbf{x}_{C_{i}}\right)
p(x1,x2,⋯,xn)=Z1i=1∏Kϕi(xCi)
其中, x c i ⊆ { x 1 , x 2 , ⋯ , x n } ( 1 ⩽ i ⩽ K ) , \mathbf{x}_{c_{i}} \subseteq\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}(1 \leqslant i \leqslant K), xci⊆{x1,x2,⋯,xn}(1⩽i⩽K), 并且满足 ⋃ i = 1 K x C i = { x 1 , x 2 , ⋯ , x n } \bigcup_{i=1}^{K} \mathbf{x}_{C_{i}}=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\} ⋃i=1KxCi={x1,x2,⋯,xn}。
显然,在无向图模型中每个 C i C_i Ci对应于一个团,而相应的吉布斯分布就是整个图的概率分布,图中的两个团 x c 1 = { x 1 , x 2 } \mathbf{x}_{c_1} = \{x_1,x_2\} xc1={x1,x2}, x c 2 = { x 1 , x 3 , x 4 } \mathbf{x}_{c_2} = \{x_1,x_3,x_4\} xc2={x1,x3,x4}就可以定义相应的吉布斯分布,因为满足条件 x c 1 ⋃ x c 2 = { x 1 , x 2 , x 3 , x 4 } \mathbf{x}_{c_1} \bigcup \mathbf{x}_{c_2} = \{x_1,x_2,x_3,x_4\} xc1⋃xc2={x1,x2,x3,x4}。
因子化的乘积运算可以变成加法运算:
p
(
x
1
,
x
2
,
⋯
,
x
n
)
=
1
Z
exp
{
−
∑
i
=
1
K
E
C
i
(
x
C
i
)
}
=
1
Z
exp
{
−
E
(
x
)
}
p\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\frac{1}{Z} \exp \left\{-\sum_{i=1}^{K} E_{C_{i}}\left(x_{C_{i}}\right)\right\}=\frac{1}{Z} \exp \{-E(\mathbf{x})\}
p(x1,x2,⋯,xn)=Z1exp{−i=1∑KECi(xCi)}=Z1exp{−E(x)}
其中,
E
(
x
)
=
∑
i
=
1
K
E
C
i
(
x
C
i
)
E(\mathbf{x}) = \sum_{i=1}^K E_{C_i}(x_{C_i})
E(x)=∑i=1KECi(xCi)。
参考文献:
统计自然语言处理(第二版) 宗成庆