条件随机场(CRF)
这里只做理论总结,至于它用于NLP中的序列标注会另讲。
1.马尔科夫随机场
马尔可夫性质:它指的是一个随机变量序列按时间先后关系依次排开的时候,第N+1时刻的分布特性,与N时刻以前的随机变量的取值无关。马尔科夫随机场中:一个无向图组成,图的顶点u在状态a的概率只依赖顶点u的最近临界点,并且顶点u对途中的其他任何节点都是条件独立的,由此构成了顶点u的最近邻节点集合Nu,称为马尔科夫链。
概率无向图:设联合概率分布P(Y),由无向图G=(V,E)表示,图G中,节点表示随机变量,边表示随机变量之间的依赖关系,如果P(Y)满足马尔可夫性质,则此联合概率称为概率无向图模型。
团:无向图G中任何两个结点均有边连接的结点子集称为团(即互通)。
2.CRF的定义和形式
给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,在条件概率分布模型P(Y|X)中,Y是输出变量,表示标记序列,X是输入变量,表示观测序列,在做预测问题时:训练时利用数据集通过极大似然估计得到条件概率模型,在学习时,给定输入序列X,求出条件概率最大的输出序列Y。这里说的CRF时线性CRF,即满足:
参数化形式:设X=x,Y=y时的条件概率为:
tk是对应边上的转移函数,sl结点上的是特征函数,是对应的权值,求和是在所有可能的输出序列上进行的。
3.优势
- 没有HMM的两个独立假设条件,特征设计灵活。
- 计算全局最优输出节点的概率,克服了MEMM的标志偏执缺点。