条件随机场CRF

wx_polish

于 2021-03-02 10:11:44 发布

阅读量173

点赞数

分类专栏：机器学习语义slam

本文链接：https://blog.csdn.net/CxC2333/article/details/114271756

版权

机器学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

语义slam

2 篇文章 0 订阅

订阅专栏

最近看论文看到某个叫CRF的东西，于是去看了看。
条件随机场 CRF：Conditional Random Field
这也是一个机器学习中分类决策的算法。

引入问题：
给你一个句子，请判断句子里面的单词分别是什么词性（词性标注问题）

参考博文中举了一个更通俗的例子来说明这类问题：
假设现在有你一个朋友小明一天下来的许多生活照，给这些照片分类，说明此时他正在做什么。
1.当识别出小明在黑暗环境中闭着眼睛，那么很有可能他在睡觉。
2.当识别出小明在一些食物前张大嘴，那么他很有可能是在吃饭。

这样的做法似乎是可以的，但是考虑如下的改进方法：
如果识别出小明上一时刻在开车，那么下一时刻的小明不可能在睡觉；如果上一时刻没法分辨出小明在干嘛，但是下一时刻很肯定小明在实验室摸鱼，那么上一时刻小明也大概率在摸鱼。
不同照片在时间序列上有着相互联系和约束，从而提高各自的识别准确度。

回到我们的词性标注问题：
假如一个词性标注的序列为：名词，动词，动词，介词，名词。大家觉得这个结果的准确率有多大？
答案是几乎为0，因为第2，3两个单词都被识别为动词，怎么可能两个动词连在一起呢？细节决定成败呀。

CRF就是找出许多这些小细节，或者说是冥冥之中存在的逻辑因果关系，构成许多个特征函数（一个特征函数就对应一个小“细节“），特征函数具有0/1两个值，当句子满足特征函数的条件，特征函数为1，不满足则为0。
同时不同的小“细节”存在重要程度之分，对于一些比较重要的细节，可以赋予更高的权重，对于没那么重要的细节，赋予比较低的权值。甚至可以反向操作，对一些“负面细节”——比如前面的两个动词并列，直接给他一个负的权值。

参考博文给了一些“正面细节”和“负面细节”的例子：