条件随机场


条件随机场(conditional random field,以下简称CRF) 是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场(HMM 是状态序列的 Markov Chain)。CRF 可以用于不同的预测问题,在 Machine Learning 领域里 CRF 一般用作处理标注问题。常用的就是线性链(linear-chain) 条件随机场了,这时,问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法通常是极大似然估计或正则化的极大似然估计。

概率无向图模型

概率无向图模型又称为马尔可夫随机场(Markov random field),是一个可以由无向图表示的联合概率分布。

模型定义

图是由结点及连接结点的边组成的集合。结点和边分别记作 v 和 e ,结点和边的集合分别记作 V 和 E ,图记作 G=(V,E) ,无向图是指边没有方向的图。概率图模型(PGM) 是由图表示的概率分布。设有联合概率分布 P(Y) , Y ∈ Y Y \in \mathcal{Y} YY 是一组随机变量。由无向图 G 表示概率分布,即在图 G 中,结点 v∈V 表示一个随机变量 Y v Y_v Yv Y = Y v ∣ v ∈ V Y = Y_v|_{v \in V} Y=YvvV;边 e∈E 表示随机变量之间的概率依赖关系。

给定一个联合概率分布 P(Y) 和表示它的无向图 G。首先定义无向图表示的随机变量之间存在的成对马尔可夫性局、部马尔可夫性和全局马尔可夫性。分别介绍一下三个概念:

成对马尔可夫性:设 u 和 v 是无向图G中任意两个没有边连接的结点,结点u和v分别对应随机变量 Yu 和 Yv。其他所有结点为 O(集合),对应的随机变量组是 YO。成对马尔可夫性是指给定随机变量组 YO 的条件下随机变量 Yu 和 Yv 是条件独立的,其实意思就是说没有直连边的任意两个节点是独立的,即
P ( Y v , Y O ∣ Y W ) = P ( Y v ∣ Y W ) P ( Y O ∣ Y W ) P(Y_v,Y_O |Y_W) = P(Y_v|Y_W)P(Y_O|Y_W) P(Yv,YOYW)=P(YvYW)P(YOYW)
局部马尔可夫性:设 v \in V 是无向图 G 中任意一个结点,W 是与 v 有边连接的所有结点,O 是 v,W 以外的其他所有结点。v 表示的随机变量是 Yv ,W 表示的随机变量组是 Y_w,O 表示的随机变量组是 Y_O。局部马尔可夫性是指在给定随机变量组 Y_W 的条件下随机变量 v 与随机变量组 Y_O 是独立的,即
P ( Y v , Y O ∣ Y W ) = P ( Y v ∣ Y W ) P ( Y O ∣ Y W ) P(Y_v,Y_O |Y_W) = P(Y_v|Y_W)P(Y_O|Y_W) P(Yv,YOYW)=P(YvYW)P(YOYW)
P ( Y O ∣ Y W ) > 0 P(Y_O|Y_W) >0 P(YOYW)>0 时,等价地
p ( Y v ∣ Y W ) = P ( Y v ∣ Y W , Y O ) p(Y_v |Y_W) = P(Y_v|Y_W,Y_O) p(YvYW)=P(YvYW,YO)
下图表示了局部马尔可夫性
在这里插入图片描述
全局马尔可夫性:设结点集合 A,B 是在无向图 G 中被结点集合 C 分开的任意结点集合,如图所示。结点集合 A,B 和 C 所对应的随机变量组分别是 YA,YB 和 YC。全局马尔可夫性是指给定随机变量组条件下随机变量组 YA 和 YB 是条件独立的,即
P ( Y A , Y B ∣ Y C ) = P ( Y A ∣ Y C ) P ( Y B ∣ Y C ) P(Y_A,Y_B|Y_C) = P(Y_A|Y_C)P(Y_B|Y_C) P(YA,YBYC)=P(YAYC)P(YBYC)
在这里插入图片描述

概率无向图模型:

设有联合概率分布 P(Y) ,由无向图 G=(V,E) 表示,在图 G 中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布 P(Y) 满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型或马尔可夫随机场。

以上是概率无向图模型的定义,实际上,我们更关心的是如何求其联合概率分布。对给定的概率无向图模型,我们希望将整体的联合概率写成若干子联合概率的乘积的形式,也就是将联合概率进行因子分解,这样便于模型的学习与计算。事实上,概率无向图模型的最大特点就是易于因子分解。下面介绍这一结果。

概率无向图模型的因子分解

首先给出无向图中的团与最大团的定义,无向图 G 中任何两个结点均有边连接的结点子集称为团(clique)。若 C 是无向图 G 的一个团,并且不能再加进任何一个 G 的结点使其成为一个更大的团,则称此 C 为最大团(maximal clique)。

下图 (a) 表示由4个结点组成的无向图。图中由2个结点组成的团有5个:{ Y 1 , Y 2 Y_1,Y_2 Y1,Y2}, { Y 2 , Y 3 Y_2,Y_3 Y2,Y3}, { Y 3 , Y 4 Y_3,Y_4 Y3,Y4},{ Y 4 , Y 2 Y_4,Y_2 Y4,Y2},{ Y 1 , Y 3 Y_1,Y_3 Y1,Y3}.有2个最大团:{ Y 1 , Y 2 , Y 3 Y_1,Y_2,Y_3 Y1,Y2,Y3},{ Y 2 , Y 3 , Y 4 Y_2,Y_3,Y_4 Y2,Y3,Y4},而 { Y 1 , Y 2 , Y 3 , Y 4 Y_1,Y_2,Y_3,Y_4 Y1,Y2,Y3,Y4} 不是一个团,因为 Y1 和 Y4 没有边连接。
在这里插入图片描述
将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解,譬如在解高次方程的时候,我们非常希望方程能够分解为多个低次方程的乘积。那么,对于概率分布函数而言,我们也希望能够这样做,即给定概率无向图模型,设无向图为 G , C 为 G 上的最大团, YC 表示 C 对应的随机变量。那么概率无向图模型的联合概率分布 P(Y) 可分解为图中所有最大团 C 上的函数 Ψ C ( Y C ) \Psi_C(Y_C) ΨC(YC) 的乘积形式,分解后的因子图如 (b) 所示,每个黑色的正方形便代表一个函数,图中将无向图拆分为两个最大团上势函数的乘积,具体的拆分公式为:
P ( Y ) = 1 Z ∏ C Ψ C ( Y C ) P(Y) = \frac{1}{Z} \prod_C \Psi_C(Y_C) P(Y)=Z1CΨC(YC)

其中,Z 是规范化因子(normalization factor),形式如下: Z = ∑ Y ∏ C Ψ C ( Y C ) Z = \sum_Y\prod_C \Psi_C(Y_C) Z=YCΨC(YC)
规范化因子保证 P(Y) 构成一个概率分布。 Ψ C ( Y C ) \Psi_C(Y_C) ΨC(YC)→R 称为势函数 (potential function)。这里要求势函数 Ψ C ( Y C ) \Psi_C(Y_C) ΨC(YC) 是严格正的,通常定义为指数函数 Ψ C ( Y C ) = exp ⁡ { − E ( Y C ) } \Psi_C(Y_C) = \exp \left \{-E(Y_C) \right \} ΨC(YC)=exp{ E(YC)}
总结一下,便得到 Hammersley-Clifford定理 ,概率无向图模型的联合概率分布可以表示为如下形式:

P ( Y ) = 1 Z ∏ C Ψ C ( Y C ) Z = ∑ Y ∏ C Ψ C ( Y C ) \begin{aligned} P(Y) &= \frac{1}{Z} \prod_C \Psi_C(Y_C) \\ Z &= \sum_Y\prod_C \Psi_C(Y_C) \end{aligned} P(Y)Z=Z1CΨC(YC)=YCΨC(YC)
其中,C 是无向图的最大团, YC 是 C 的结点对应的随机变量, ΨC(YC) 是 C 上定义的严格正函数,乘积是在无向图所有的最大团上进行的。

条件随机场的模型表示

linear-chain 条件随机场

条件随机场(conditional random field)是给定随机变量 X 条件下,随机变量 Y 的马尔可夫随机场。本文主要介绍定义在线性链上的特殊的条件随机场,称为线性链条件随机场(linear-chain CRF)。线性链条件随机场可以用于机器学习里的标注问题。这时,在条件概率模型 P(Y|X) 中,Y 是输出变量,表示标记序列,也把标记序列称为状态序列(同 HMM 中的状态序列);X 是输入变量,表示观测序。学习时,利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型 P ^ ( Y ∣ X ) \hat{P}(Y|X) P^(YX) ;然后使用该模型预测即可。

CRF 的定义

设 X 与 Y 是随机变量,P(Y|X) 是在给定 X 的条件下 Y 的条件概率分布。若随机变量 Y 构成一个由无向图 G = (V,E) 表示的马尔可夫随机场,即: P ( Y v ∣ X , Y w , w ≠ v ) = P ( Y v ∣ X , Y w , w ∼ v ) P(Y_v|X,Y_w,w \ne v) =P(Y_v|X,Y_w,w \sim v) P(YvX,Yw,w̸=v)=P(YvX,Yw,wv)
对任意结点 v 成立,则称条件概率分布 P(Y|X) 为条件随机场。式中 w∼v 表示在图 G = (V,E) 中与结点 v 有边连接的所有结点 w, w≠v 表示结点 v 以外的所有结点, Y u , Y v , Y w Y_u,Y_v,Y_w Yu,Yv,Yw 为结点 u,v,w 对应的随机变量,从定义来看,左边到右边点的数量大大减小,w≠v 的点有 |V|−1 个,而 w∼v 就少了,其实就是说当前变量只跟与之相邻的变量有关系,而独立于没有直接连接的变量。

在定义中并没有要求 X 和 Y 具有相同的结构。现实中,一般假设 X 和 Y 有相同的图结构。本书主要考虑无向图为线性链的情况,即对于节点 1 到 n,边的情为: E = { ( i , i + 1 ) } i = 1 n − 1 E = \left \{ (i,i+1) \right \}_{i=1}^{n-1} E={ (i,i+1)}i=1n1 ,在此情况下 X = { X i } i = 1 n , Y = { Y i } i = 1 n X =\left \{ X_i \right \}_{i=1}^{n} ,Y =\left \{ Y_i \right \}_{i=1}^{n} X={ Xi}i=1n,Y={ Yi}i=1n,最大团是相邻两个结点的集合,下图即为 liner-chain CRF:
在这里插入图片描述
线性链条件随机场的定义:设 X = { X i } i = 1 n , Y = { Y i } i = 1 n X =\left \{ X_i \right \}_{i=1}^{n} ,Y =\left \{ Y_i \right \}_{i=1}^{n} X={ Xi}i=1n,Y={ Yi}i=1n均为线性链表示的随机变量序列,若在给定随机变量序列 X 的条件下,随机变量序列 Y 的条件概率分布 P(Y|X)构成条件随机场,即满足马尔可夫性
P ( Y i ∣ X , Y 1 , … , Y i − 1 , Y i + 1 , … , Y n ) = P ( Y i ∣ X , Y i − 1 , Y i + 1 ) P(Y_i | X,Y_1,…,Y_{i-1},Y_{i+1},…,Y_n) = P(Y_i | X,Y_{i-1},Y_{i+1}) P(YiX,Y1,,Yi1,Yi+1,,Yn)=P(YiX,Yi1,Yi+1)
则称 P(Y|X) 为线性链条件随机场。注意当 i=1 或 i=n 时只考虑一侧,在标注问题中,X 表示输入观测序列,Y 表示对应的输出标记序列或状态序列。

CRF 的参数化形式

根据 Hammersley-Clifford 定理,可以给出线性链条件随机场 P(Y|X)的因子分解式,各因子是定义在相邻两个结点上的函数。在随机变量 X 取值为 x 的条件下,随机变量 Y 取值为 y 的条件概率具有如下形式:
P ( y ∣ x ) = 1 Z ( x ) exp ⁡ { ∑ i , k λ k t k ( y i − 1 , y i , x , i ) + ∑ i , l μ l s l ( y i , x , i ) } P(y|x) = \frac{1}{Z(x)}\exp \left \{ \sum_{i,k}\lambda_k t_k (y_{i-1},y_i,x,i)+ \sum_{i,l}\mu_l s_l(y_i,x,i) \right \} P(yx)=Z(x)1exp{ i,kλktk(yi1,yi,x,i)+i,lμlsl(yi,x,i)}
其中 Z(x) 为归一化项: Z ( x ) = ∑ y { ∑ i , k λ k t k ( y i − 1 , y i , x , i ) + ∑ i , l μ l s l ( y i , x , i ) } Z(x) = \sum_y \left \{ \sum_{i,k}\lambda_k t_k (y_{i-1},y_i,x,i)+ \sum_{i,l}\mu_l s_l(y_i,x,i) \right \} Z(x)=yi,kλktk(yi1,yi,x,i)+i,lμlsl(yi,x,i)
式中, t k t_k tk s l s_l sl是特征函数, λ k \lambda_k λk μ l \mu_l μl是对应的权值。 Z(x) 是规范化因子,求和是在所有可能的输出序列上进行的。以上两个式子是线性链条件随机场模型的基本形式,表示给定输入序列 x ,对输出序列 y 预测的条件概率。其中 t k t_k tk 是定义在边上的特征函数,称为转移特征( t 是transition的缩写),依赖于当前和前一个位置, s l s_l sl是定义在结点上的特征函数,称为状态特征(s 是status的缩写),依赖于当前位置(无论哪种特征函数,都将当前可能的 yi 作为数)。 t k t_k tk s l s_l sl 都依赖于位置,是局部特征函数。通常,特征函数 t k t_k tk s l s_l sl 取值为 1 或 0 ;当满足特征条件时取值为 1 ,否则为 0 。CRF 完全由特征函数和对应的权值 λ k \lambda_k λk, μ l \mu_l μl确定,线性链条件随机场也是对数线性模型(loglinear model)。

CRF 的简化形式

CRF 还可以由简化形式表示。注意到条件随机场式中同一特征在各个位置都有定义,可以对同一个特征在各个位置求和,将局部特征函数转化为一个全局特征函数,这样就可以将条件随机场写成权值向量和特征向量的内积形式,即条件随机场的简化形式,为简便起见,首先将转移特征和状态特征及其权值用统一的符号表示。设有 K1 个转移特征,K2 个状态特征,记 f k ( y i − 1 , y i , x , i ) = { t k ( y i − 1 , y i , x , i ) ,    k = 1 , 2 , . . . , K 1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值