看过<统计机器学习>中的有关条件随机场CRF的公式推导说明,确实看到有点云里雾里,感觉有点点抽象,有些点光看公司也一时无法想明白原理,因此借鉴了国外的一片有关CRF的介绍性说明,结合词性标注场景应用,通过对线性条件随机场的特征函数推导,一下子明白了许多,同时放上两个中文翻译的博客链接,一定程度上也帮助我理解CRF与词性标注的应用介绍:
国外论文: http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/
国内的两篇翻译博客:
https://zhuanlan.zhihu.com/p/25558273
https://www.jianshu.com/p/55755fc649b1
浅显易懂,至少能够帮助初学者入个门 没问题:
场景介绍:
想象一下,你有 Justin Bieber 一天生活中的一连串快照,你想在这些照片上面打上活动内容的标签(吃睡、睡觉、开车等)。你会怎么做?
一种方式是忽略这些快照的本质,建立一个图片分类器。举个例子,事先给定一个月的打标快照,你可能会了学到在早上6点拍的较暗的照片很可能是在睡觉,有很多明亮颜色的照片,很可以是关于跳舞,照片中有车那应该是在开车等等。
然而,忽略顺序关联,你会丢失很多信息。例如,如果你看到一张嘴张的特写照片,那它应该打标成吃饭还是唱歌呢?如果上一张 Justin Bieber 的照片中他在吃饭或者做菜,那当前这张照片很可能是他在吃饭;但如果上一张照片中 Justin Bieber 在唱歌或者跳舞,那这张很可能是在说他也在唱歌。
因此,为了提高我们打标的准确率,我们应该结合参考相近照片,这正是条件随机场(condition random field)所做的事情