1.个人理解和总结
- 对比HMM的状态转移概率矩阵和发射概率矩阵CRF有自己的定义在边上的特征函数(相当于转移概率)和定义在节点上的特征函数(相当月发射概率)
- 序列标注HMM可以根据转移概率矩阵和发射概率矩阵计算出隐状态序列概率,(齐次马尔科夫假设:当前状态只与前一状态有关,观测独立性假设:观测序列的状态只与这一时刻的隐状态相关),而CRF则是计算概率图中所有最大团的特征函数来模拟出隐状态序列概率
2.巨人的肩膀
非常感谢博文的原作者,刘启林的精彩总结
CRF条件随机场的原理、例子、公式推导和应用
条件随机场(Conditional Random Field,CRF)是自然语言处理的基础模型,广泛应用于中文分词、命名实体识别、词性标注等标注场景。
条件随机场CRF与深度学习结合,产生了BiLSTM-CRF、BiLSTM-CNN-CRF等模型,在中文分词、命名实体识别、词性标注也取得不错的效果。
条件随机场CRF与Attention机制结合,又发展成了Transformer-CRF、BERT-BiLSTM-CRF等模型,使中文分词、命名实体识别、词性标注效果又有显著提高。
本文先引出条件随机场CRF的场、随机场、团、最大团等相关基础概念;接着介绍CRF的原理,重点阐述了线性链条件随机场的原理;然后介绍CRF在中文分词、命名实体识别、词性标注的具体应用;最后对CRF进行总结,指出图模型之间的演化关系,及CRF模型的发展简史。
本文结构如下:
一、CRF基础
1、无向图
2、马尔可夫随机场
3、最大团
4、无向图的因子分解
二、CRF原理
1、条件随机场
2、线性链条件随机场
3、线性链条件随机场公式
4、条件随机场例子
三、CRF应用
1、中文分词
2、命名实体识别
3、词性标注
四、CRF总结
1、CRF的概括总结
2、图模型之间的关系
3、CRF的发展简史
直接上PPT。
![](https://pic2.zhimg.com/v2-55f5e314d48940fe8102fe6ed72b6df5_b.jpg)
![](https://pic2.zhimg.com/80/v2-55f5e314d48940fe8102fe6ed72b6df5_720w.jpg)
一、CRF基础
![](https://pic1.zhimg.com/v2-0fc6146adcb015fa95c9d1837636bbf4_b.jpg)
![](https://pic1.zhimg.com/80/v2-0fc6146adcb015fa95c9d1837636bbf4_720w.jpg)
1、无向图
什么是图?什么是无向图?
![](https://pic3.zhimg.com/v2-05542e63ec1938d33e94dd7d7ed4e986_b.jpg)
![](https://pic3.zhimg.com/80/v2-05542e63ec1938d33e94dd7d7ed4e986_720w.jpg)
2、马尔可夫随机场
什么是场?什么是随机过程?
![](https://pic2.zhimg.com/v2-47fee0ce37529374b22101f9d47fd4c1_b.jpg)
![](https://pic2.zhimg.com/80/v2-47fee0ce37529374b22101f9d47fd4c1_720w.jpg)
什么是随机场?什么是马尔可夫随机场?
![](https://pic4.zhimg.com/v2-76ef30f5f3ebeb4fd83d9c5415d5580b_b.jpg)
![](https://pic4.zhimg.com/80/v2-76ef30f5f3ebeb4fd83d9c5415d5580b_720w.jpg)
3、最大团
什么是团?什么是最大团?
![](https://pic1.zhimg.com/v2-f46d241210baf971e8968bd0ccf058d8_b.jpg)
![](https://pic1.zhimg.com/80/v2-f46d241210baf971e8968bd0ccf058d8_720w.jpg)
4、无向图的因子分解
Hammersley-Clifford 定理如下:
![](https://pic1.zhimg.com/v2-d5cf7a3ebac7a4cd6126c11ae6c73044_b.jpg)
![](https://pic1.zhimg.com/80/v2-d5cf7a3ebac7a4cd6126c11ae6c73044_720w.jpg)
举个无向图的因子分解的例子。
![](https://pic3.zhimg.com/v2-efbb3f5419ff91c88db9844fe04cb636_b.jpg)
![](https://pic3.zhimg.com/80/v2-efbb3f5419ff91c88db9844fe04cb636_720w.jpg)
二、CRF原理
![](https://pic2.zhimg.com/v2-a9a84f35f7ad6c22f169c22f88da4619_b.jpg)
![](https://pic2.zhimg.com/80/v2-a9a84f35f7ad6c22f169c22f88da4619_720w.jpg)
1、条件随机场
2001年,John Lafferty, Andrew McCallum 和 Fernando Pereira,在论文《 Conditional Random fields :Probabilistic Models for Segmenting and Labeling Sequence Data》提出条件随机场。
提出条件随机场。
![](https://pic3.zhimg.com/v2-8bc8ea5b4ac6919182c775efdfba4856_b.jpg)
![](https://pic3.zhimg.com/80/v2-8bc8ea5b4ac6919182c775efdfba4856_720w.jpg)
条件随机场定义如下:
![](https://pic2.zhimg.com/v2-096bfaa482854b7fd4bb753357048921_b.jpg)
![](https://pic2.zhimg.com/80/v2-096bfaa482854b7fd4bb753357048921_720w.jpg)
2、线性链条件随机场
![](https://pic2.zhimg.com/v2-3e284501e3cae972ec8d3549e3820fa1_b.jpg)
![](https://pic2.zhimg.com/80/v2-3e284501e3cae972ec8d3549e3820fa1_720w.jpg)
线性链条件随机场的定义如下:
![](https://pic3.zhimg.com/v2-e4018eb4ee1ccb10a942525e36aa407a_b.jpg)
![](https://pic3.zhimg.com/80/v2-e4018eb4ee1ccb10a942525e36aa407a_720w.jpg)
线性链条件随机场CRF的图结构
![](https://pic1.zhimg.com/v2-cebd08fab5f567dff1ca16e2d204984c_b.jpg)
![](https://pic1.zhimg.com/80/v2-cebd08fab5f567dff1ca16e2d204984c_720w.jpg)
3、线性链条件随机场公式
![](https://pic1.zhimg.com/v2-ee91ebeecd409eb4a33af209fb8b0f18_b.jpg)
![](https://pic1.zhimg.com/80/v2-ee91ebeecd409eb4a33af209fb8b0f18_720w.jpg)
特征函数定义如下:
![](https://pic1.zhimg.com/v2-799f58be49406ee7478ed52d94a3f188_b.jpg)
![](https://pic1.zhimg.com/80/v2-799f58be49406ee7478ed52d94a3f188_720w.jpg)
为了简单起见,将转移特征和状态特征及其权值用统一符号表示。条件随机场简化公式如下:
![](https://pic4.zhimg.com/v2-e0f24d7d3c60c3fb0cfba7f10e3f33b3_b.jpg)
![](https://pic4.zhimg.com/80/v2-e0f24d7d3c60c3fb0cfba7f10e3f33b3_720w.jpg)
4、条件随机场例子
例2:已知中文文本"刘启林”,采用IOB标注方法,求实体标注序列为{ B,I,I }的概率。
![](https://pic3.zhimg.com/v2-98c85098271f347be65745d6d5b4e8de_b.jpg)
![](https://pic3.zhimg.com/80/v2-98c85098271f347be65745d6d5b4e8de_720w.jpg)
例1的几何描述如下:
![](https://pic2.zhimg.com/v2-980fd0c5d7c701e69aa3435f51901cb9_b.jpg)
![](https://pic2.zhimg.com/80/v2-980fd0c5d7c701e69aa3435f51901cb9_720w.jpg)
例1的标注序列为{B、I、I}的联合概率分布如下:
![](https://pic4.zhimg.com/v2-15120e3c0ae1e8c49defca66ac945143_b.jpg)
![](https://pic4.zhimg.com/80/v2-15120e3c0ae1e8c49defca66ac945143_720w.jpg)
三、CRF应用
![](https://pic1.zhimg.com/v2-2a8dd79721f2a2e9625fcc0c34767020_b.jpg)
![](https://pic1.zhimg.com/80/v2-2a8dd79721f2a2e9625fcc0c34767020_720w.jpg)
1、中文分词
基于CRF由字构词方法的基本思想,基本原理如下:
![](https://pic2.zhimg.com/v2-31b9b12996bef5bfc857eabcc276e899_b.jpg)
![](https://pic2.zhimg.com/80/v2-31b9b12996bef5bfc857eabcc276e899_720w.jpg)
CRF中文分词的图结构如下:
![](https://pic2.zhimg.com/v2-8c7825e6a2a700faf96c7ed2aa1c7ed9_b.jpg)
![](https://pic2.zhimg.com/80/v2-8c7825e6a2a700faf96c7ed2aa1c7ed9_720w.jpg)
2、命名实体识别
基于CRF的命名实体识别过程如下:
![](https://pic1.zhimg.com/v2-e6b99a5894e1d65a0b8802ed718b861c_b.jpg)
![](https://pic1.zhimg.com/80/v2-e6b99a5894e1d65a0b8802ed718b861c_720w.jpg)
CRF命名实体识别的图结构如下:
![](https://pic2.zhimg.com/v2-cdacd9ff36747052097e5516360a0155_b.jpg)
![](https://pic2.zhimg.com/80/v2-cdacd9ff36747052097e5516360a0155_720w.jpg)
3、词性标注
基于CRF词性标注方法的基本思想,基本原理如下:
![](https://pic3.zhimg.com/v2-d6156399374fb6f9f813301559cb3f32_b.jpg)
![](https://pic3.zhimg.com/80/v2-d6156399374fb6f9f813301559cb3f32_720w.jpg)
CRF中文词性标注的图结构如下:
![](https://pic2.zhimg.com/v2-9d7163ea8fbb8484d1521936fe2ef139_b.jpg)
![](https://pic2.zhimg.com/80/v2-9d7163ea8fbb8484d1521936fe2ef139_720w.jpg)
四、CRF总结
![](https://pic4.zhimg.com/v2-54065bf386836ed59b1f547b27ac993f_b.jpg)
![](https://pic4.zhimg.com/80/v2-54065bf386836ed59b1f547b27ac993f_720w.jpg)
1、CRF的概括总结
![](https://pic2.zhimg.com/v2-4a81438647995280c6925dddc376b4e5_b.jpg)
![](https://pic2.zhimg.com/80/v2-4a81438647995280c6925dddc376b4e5_720w.jpg)
2、图模型之间的关系
朴素贝叶斯、HMM、逻辑回归、CRF等图模型关系如下:
![](https://pic4.zhimg.com/v2-104861c06cb27665b8d4287d7ab55f9b_b.jpg)
![](https://pic4.zhimg.com/80/v2-104861c06cb27665b8d4287d7ab55f9b_720w.jpg)
朴素贝叶斯、HMM、逻辑回归、CRF对比如下表所示:
![](https://pic3.zhimg.com/v2-e8133053213c8ea85897ed5f394a800e_b.jpg)
![](https://pic3.zhimg.com/80/v2-e8133053213c8ea85897ed5f394a800e_720w.jpg)
更多HMM可参考:
更多LR逻辑回归模型可参考:
3、CRF的发展简史
![](https://pic4.zhimg.com/v2-5c26be5bcbb7be58b91103bd9d6f9e4f_b.jpg)
![](https://pic4.zhimg.com/80/v2-5c26be5bcbb7be58b91103bd9d6f9e4f_720w.jpg)
机器学习阶段:CRF
深度学习阶段:BiLSTM-CRF、BiLSTM-CNN-CRF
Attention阶段:Transformer-CRF、BERT-BiLSTM-CRF
条件随机场CRF一直是标注问题的基础模型。
由于能力和水平的限制,我的可能是错的。
参考文献:
1、王元等, 数学大词典(第二版), 科学出版社[M], 2017.09
2、John Lafferty, Andrew McCallum, and Fernando Pereira, "Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data", June 2001.
3、李航, 统计学习方法(第2版), 清华大学出版社[M], 2019.05
4、宗成庆, 统计自然语言处理(第2版), 清华大学出版社[M], 2013.08
5、Charles Sutton and Andrew McCallum, An Introduction to Conditional Random Fields, 2011