概率无向图
概率无向图,也成为了马尔科夫随机场,是一个可以有无向图表示的联合概率分布。定义如下:
设有联合概率分布
P
(
Y
)
P(Y)
P(Y),由无向图
G
=
(
V
,
E
)
G=(V, E)
G=(V,E)表示,在图
G
G
G中,节点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布
P
(
Y
)
P(Y)
P(Y)满足成对、局部或全局马尔科夫性,就称此联合概率分布为概率无向图模型,或马尔科夫随机场。
- 成对马尔可夫性:设 u u u和 v v v是无向图 G G G中任意两个没有边连接的结点,结点 u u u和 v v v分别对应随机变量 Y u Y_u Yu和 Y v Y_{v} Yv。其他所有结点为 O O O,对应的随机变量组是 Y O Y_O YO, 成对马尔可夫性是指给定随机变量组 Y O Y_O YO的条件下随机变量 Y u Y_{u} Yu和 Y v Y_{v} Yv 是条件独立的,即:
P ( Y u , Y v ∣ Y O ) = P ( Y u ∣ Y O ) P ( Y v ∣ Y O ) P(Y_u,Y_v∣Y_O)=P(Y_u∣Y_O)P(Y_v∣Y_O) P(Yu,Yv∣YO)=P(Yu∣YO)P(Yv∣YO)
-
局部马尔可夫性:设 v ∈ V v∈V v∈V是无向图 G G G中任意一个结点, W W W是与 v v v有边连接的所有结点, O O O是 v v v, W W W以外的其他所有结点, v v v表示的随机变量是 Y v Y_{v} Yv , W W W表示的随机变量组是 Y W Y_{W} YW , O O O表示的随机变量组是 Y O Y_{O} YO,局部马尔可夫性是指在给定随机变量组 Y W Y_{W} YW的条件下,随机变量 Y v Y_{v} Yv与随机变量组 Y O Y_{O} YO是独立的,即: P ( Y v , Y O ∣ Y W ) = P ( Y v ∣ Y W ) P ( Y O ∣ Y W ) P P(Y_v,Y_O∣Y_W)=P(Y_v∣Y_W)P(Y_O∣Y_W)P P(Yv,YO∣YW)=P(Yv∣YW)P(YO∣YW)P在 P ( Y O ∣ Y W ) > 0 P(Y_O|Y_W)>0 P(YO∣YW)>0时,等价地,
P ( Y v ∣ Y W ) = P ( Y v ∣ Y W , Y O ) P(Y_v∣Y_W) = P(Y_v|Y_W,Y_O) P(Yv∣YW)=P(Yv∣YW,YO) -
全局马尔可夫性:设结点集合 A A A, B B B是在无向图 G G G中被结点集合 C C C分开的任意结点集合,结点集合 A A A, B B B, C C C所对应的随机变量组分别是 Y A Y_A YA, Y B Y_B YB, Y C Y_C YC,全局马尔可夫性是指给定随机变量组 Y C Y_C YC条件下随机变量组 Y A 和 Y_A和 YA和Y_B$是条件独立的,即:
P ( Y A , Y B ∣ Y C ) = P ( Y A ∣ Y C ) P ( Y B ∣ Y C ) P(Y_A,Y_B∣Y_C)=P(Y_A∣Y_C)P(Y_B∣Y_C) P(YA,YB∣YC)=P(YA∣YC)P(YB∣YC)
-
Hammersley-Clifford定理,概率无向图模型的联合概率分布 P ( Y ) P(Y) P(Y)可以表示为如下形式:
P ( Y ) = 1 Z ∏ c Ψ C ( Y C ) P(Y)=\frac{1}{Z} \prod_{c} \Psi_{C}(Y_{C}) P(Y)=Z1c∏ΨC(YC)
Z = ∑ Y ∏ C Ψ C ( Y C ) Z=\sum_{Y} \prod_{C} \Psi_{C}(Y_{C}) Z=Y∑C∏ΨC(YC)
其中,
C
C
C是无向图的最大团,
Z
Z
Z是规范化因子,是为了保证
P
(
Y
)
P(Y)
P(Y)构成一个概率分布。
无向图
G
G
G中任何两个结点均有边连接的结点子集称为团,若
C
C
C是无向图
G
G
G的一个团,并且不能再加进任何一个
G
G
G的结点使其成为一个更大的团,则称此
C
C
C为最大团。
条件随机场的定义
条件随机场:设 X X X与 Y Y Y是随机变量, P ( Y ∣ X ) P(Y∣X) P(Y∣X)是在给定 X X X的条件下 Y Y Y的条件概率分布。若随机变量 Y Y Y构成一个由无向图 G = ( V , E ) G=(V,E) G=(V,E)表示的马尔可夫随机场,即
P ( Y v ∣ X , Y w , w ≠ v ) = P ( Y v ∣ X , Y w , w ∼ v ) P(Y_v∣X,Y_w,w≠v)=P(Y_v∣X,Y_w,w∼v) P(Yv∣X,Yw,w=v)=P(Yv∣X,Yw,w∼v)
对任意结点 v v v成立,则称条件概率分布 P ( Y ∣ X ) P(Y | X) P(Y∣X)为条件随机场,式中 w ∼ v w∼v w∼v表示在图 G G G中与结点 v v v有边连接的所有结点 w w w, w ≠ v w≠v w=v表示结点 v v v以外的所有结点, Y v Y_{v} Yv, Y u Y_{u} Yu, Y w Y_{w} Yw为结点 v v v, u u u, w w w对应的随机变量。
-
线性链条件随机场:设 X = ( X 1 , X 2 , ⋯ , X n ) X=(X_1, X_2,⋯,X_n) X=(X1,X2,⋯,Xn), Y = ( Y 1 , Y 2 , ⋯ , Y n ) Y=(Y_1,Y_2,⋯,Y_n) Y=(Y1,Y2,⋯,Yn)均为线性链表示的随机变量序列,若在给定随机变量序列 X X X的条件下,随机变量序列 Y Y Y的条件概率分布P P ( Y ∣ X ) P(Y | X) P(Y∣X)构成条件随机场,即; P ( Y i ∣ X , Y 1 , ⋯ , Y i − 1 , Y i + 1 , ⋯ , Y n ) = P ( Y i ∣ X , Y i − 1 , Y i + 1 ) P(Y_i|X,Y_1,⋯,Y_{i-1},Y_{i+1},⋯,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1}) P(Yi∣X,Y1,⋯,Yi−1,Yi+1,⋯,Yn)=P(Yi∣X,Yi−1,Yi+1)则称 P ( Y ∣ X ) P(Y∣X) P(Y∣X)为线性链条件随机场,在标注问题中, X X X表示输入观测序列, Y Y Y表示对应的输出标记序列或状态序列。
-
条件随机场的参数化形式
设 P ( Y ∣ X ) P(Y∣X) P(Y∣X)为线性链条件随机场,则在随机变量 X X X取值为 x x x的条件下,随机变量 Y Y Y取值为 y y y的条件概率具有如下的形式: P ( y ∣ x ) = 1 Z ( x ) exp ( ∑ i , k λ k t k ( y i − 1 , y i , x , i ) + ∑ i , l μ l s l ( y i , x , i ) ) P(y | x)=\frac{1}{Z(x)} \exp(\sum_{i, k} \lambda_{k} t_{k}(y_{i-1}, y_{i}, x, i)+\sum_{i, l} \mu_{l} s_{l}(y_{i}, x, i)) P(y∣x)=Z(x)1exp(i,k∑λktk(yi−1,yi,x,i)+i,l∑μlsl(yi,x,i))其中, Z ( x ) = ∑ y exp ( ∑ i , k λ k t k ( y i − 1 , y i , x , i ) + ∑ i , l μ l s l ( y i , x , i ) ) Z(x)=\sum_y\exp(\sum_{i, k} \lambda_{k} t_{k}(y_{i-1}, y_{i}, x, i)+\sum_{i, l} \mu_{l} s_{l}(y_{i}, x, i)) Z(x)=y∑exp(i,k∑λktk(yi−1,yi,x,i)+i,l∑μlsl(yi,x,i))式中, t k t_k tk和 s l s_l sl是特征函数, λ k \lambda_{k} λk和 μ l \mu_{l} μl是对应的权值。 Z ( x ) Z(x) Z(x)是规范化因子,求和是在所有可能的输出序列上进行的。
2.2.3 条件随机场的简化形式
注意到条件随机场中同一特征在各个位置都有定义,可以对同一个特征在各个位置求和,将局部特征函数转化为一个全局特征函数,这样就可以将条件随机场写成权值向量和特征向量的内积的形式,即条件随机场的简化形式。
P w ( y ∣ x ) = exp ( w ⋅ F ( y , x ) ) Z w ( x ) P_w(y|x)=\frac{\exp(w⋅F(y,x))}{Z_w(x)} Pw(y∣x)=Zw(x)exp(w⋅F(y,x))
Z w ( x ) = ∑ y exp ( w ⋅ F ( y , x ) ) Z_w(x) = \sum_y\exp(w⋅F(y,x)) Zw(x)=y∑exp(w⋅F(y,x))
待补充
参考
李航 统计学习方法