条件随机场CRF

最近看论文看到某个叫CRF的东西,于是去看了看。
条件随机场 CRF:Conditional Random Field
这也是一个机器学习中分类决策的算法。

引入问题:
给你一个句子,请判断句子里面的单词分别是什么词性(词性标注问题

参考博文中举了一个更通俗的例子来说明这类问题:
假设现在有你一个朋友小明一天下来的许多生活照,给这些照片分类,说明此时他正在做什么。
1.当识别出小明在黑暗环境中闭着眼睛,那么很有可能他在睡觉。
2.当识别出小明在一些食物前张大嘴,那么他很有可能是在吃饭。

这样的做法似乎是可以的,但是考虑如下的改进方法:
如果识别出小明上一时刻在开车,那么下一时刻的小明不可能在睡觉;如果上一时刻没法分辨出小明在干嘛,但是下一时刻很肯定小明在实验室摸鱼,那么上一时刻小明也大概率在摸鱼。
不同照片在时间序列上有着相互联系和约束,从而提高各自的识别准确度。

回到我们的词性标注问题:
假如一个词性标注的序列为:名词,动词动词,介词,名词。大家觉得这个结果的准确率有多大?
答案是几乎为0,因为第2,3两个单词都被识别为动词,怎么可能两个动词连在一起呢?细节决定成败呀。

CRF就是找出许多这些小细节,或者说是冥冥之中存在的逻辑因果关系,构成许多个特征函数(一个特征函数就对应一个小“细节“),特征函数具有0/1两个值,当句子满足特征函数的条件,特征函数为1,不满足则为0。
同时不同的小“细节”存在重要程度之分,对于一些比较重要的细节,可以赋予更高的权重,对于没那么重要的细节,赋予比较低的权值。甚至可以反向操作,对一些“负面细节”——比如前面的两个动词并列,直接给他一个负的权值。

参考博文给了一些“正面细节”和“负面细节”的例子:

当l_i是“副词”并且第i个单词以“ly”结尾时,我们就让f1 = 1,其他情况f1为0。不难想到,f1特征函数的权重λ1应当是正的。而且λ1越大,表示我们越倾向于采用那些把以“ly”结尾的单词标注为“副词”的标注序列

如果l_i和l_i-1都是介词,那么f4等于1,其他情况f4=0。这里,我们应当可以想到λ4是负的,并且λ4的绝对值越大,表示我们越不认可介词后面还是介词的标注序列。

数学公式:
最后给出CRF的表达式:
在这里插入图片描述
在这里插入图片描述
由于此处的特征函数只针对两个相邻的单词,因此同一特征函数需对句子进行多次评分(当然,是句子中的不同单词);次数为n的求和就是做的这一步。
次数为m的求和就是将所有特征函数的结果,乘以其对应的权重,得到最终的求和,也就是最终的得分。

指数化和标准化
在这里插入图片描述
这里的指数化,标准化,可以理解成归一化,最终根据特征函数所得分数,获得最终的概率。

参考博文:
https://zhuanlan.zhihu.com/p/104562658

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值