CRF(条件随机场)

条件随机场跟隐式马可夫模型常被一起提及,条件随机场对于输入和输出的机率分布,没有如隐式马可夫模型那般强烈的假设存在。

条件随机域(场)(conditional random fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。

如同马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算。

“条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马尔可夫模型(HMM),像基于类的中文分词。但隐马尔可夫模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。

CRF的重点是解决序列化标注问题。使用crf实现对一个句子中词的词性或者词的一些其他方面识别的标注。

CRFs的定义

给定数据序列随机变量x,CRFs定义了标注结果序列随机变量Y的条件概率分布p(Y|X),它通过训练的方法来使得条件概率p(Y|X)最大。CRFs是无向图模型,其最简单的形式是线性的CRFs,即模型中各个节点之间构成线性结构。一个线性的CRFs对应一个有限状态机,它非常适合于进行线性数据序列的标注。

它没有隐马尔可夫模型(Hidden Markov Mode1)那样严格的独立假设,同时克服了最大熵马尔可夫模型(Maximum Entropy Markov ModeI,MEMM)和其他非生成的有向图模型(non—generative directed graphical models)所固有的“标记偏置”(1abel—bias)的缺点。

CRFs可以同时使用中心词的前n个词和后m个词作为上下文信息。而隐马尔科夫模型只能利用中心词的前n个词作为上下文信息。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值