机器学习实战——条件随机场（CRF）

最新推荐文章于 2024-01-13 23:11:48 发布

OshynSong

最新推荐文章于 2024-01-13 23:11:48 发布

阅读量1.3w

点赞数 2

分类专栏： Algorithm KDD/ML 文章标签： crf 序列标注问题算法

本文链接：https://blog.csdn.net/u010487568/article/details/46485673

版权

本文介绍了条件随机场（CRF）的由来、特性，详细讲解了CRF作为判别式模型在序列标注问题中的优势，包括解决标注偏差问题和高实用性。同时，深入探讨了模型定义、概率表示，以及优化算法如IIS和BFGS，并提到了CRF在实际中的开源工具如CRF++、MALLET和NLTK。

摘要由CSDN通过智能技术生成

声明：本文是在《最优化方法》课程中阅读的Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data这篇文章后的总结。

CRF由来

条件随机场（CRF）这种用来解决序列标注问题的机器学习方法是由John Lafferty于2001年发表在国际机器学习大会ICML上的一篇经典文章所引入，对后人的研究起到了非常大的引领作用。特别是标注问题在很多自然科学领域有广泛应用，在自然语言处理领域对于自动分词、命名实体标注等问题都以这篇文章作为开山之作。

CRF的特性

1.判别式模型

CRF是一种概率无向图判别式模型，解决了HMM（隐马尔科夫）和MEMM（最大熵马尔科夫）模型在序列标注中的标注偏差（bias）问题。

2. 实用性高

CRF使用一个单独的指数模型来表示在给定观测序列条件下整个序列的标签的联合概率，不同状态下的不同特征能够相互进行平衡。同时，可以把CRF当做一个具有非规范化的转移概率的有限状态模型，使用MLE或者MAP进行学习之后可以得到一个定义良好的可能标注的概率分布。同时，训练的损失函数是凸函数，保证了全局收敛性，是无约束凸优化问题，具有非常好的实用性

模型详解

模型定义

随机变量 $X$ 表示待标注的序列数据，随机变量 $Y$ 表示序列数据对应的标签，其中 $Y$ 的每一个分量 $Y_i$ 取值于一个有限个标签的集合 $\mathcal{Y}$ 。
定义：给定图 $G=(V,E)$ 表示概率分布 $P(Y)$ ，即在图中顶点确定的随机变量 $Y=(Y_v)_{v\in V}$ 属于图 $G$ ，图中的边 $e\in E$ 表示随机变量之间的依赖性。当随机变量 $Y_v$ 在给定条件 $X$ 满足马尔科夫性质时，那么 $(X,Y)$ 构成了一个条件随机场（CRF）。其中马尔科夫性质是指：

P (Y v | X, Y w, w \neq v) = P (Y v | X, Y w, w \sim v)

$P(Y_v|X,Y_w,w \neq v) = P(Y_v|X,Y_w,w\sim v)$ 其中的

w∼v $w\sim v$ 表示图中与节点

v $v$ 相连的节点。
在序列标注问题中，所有元素连接成为一条链式结构，因此定义中的图结构在处理序列标注问题时默认为线性链式结构，也就是

G=(V={1,2,...m}) $G=(V=\{1,2,...m\})$ ，

E={ (i,i+1),i=1,2...m−1} $E=\{(i,i+1),i=1,2...m-1\}$ ，定义中没有规定

X $X$ 与

Y $Y$ 有同样的结构，但是现实中一般假定

X $X$ 和

Y $Y$ 具有同样的结构，常使用的是

X=(X1,X2,...Xm) $X=(X_1,X_2,...X_m)$ ，

Y=(Y1,Y2,...Ym) $Y=(Y_1,Y_2,...Y_m)$ 。
根据上述假设，可以得出如下的线性链条件随机场：
设

最低0.47元/天解锁文章

OshynSong

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战——条件随机场（CRF）

声明：本文是在《最优化方法》课程中阅读的Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data这篇文章后的总结。CRF由来条件随机场（CRF）这种用来解决序列标注问题的机器学习方法是由John Lafferty于2001年发表在国际机器学习大会ICML上的一篇经典文章所引入，对
复制链接

扫一扫