词性标注HMM模型之Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network (2003)论文解读

最新推荐文章于 2021-05-02 14:02:58 发布

qq_长期不在

最新推荐文章于 2021-05-02 14:02:58 发布

阅读量495

点赞数

分类专栏：自然语言处理文章标签：自然语言处理人工智能机器学习

本文链接：https://blog.csdn.net/qq_41978896/article/details/106257509

版权

自然语言处理专栏收录该内容

7 篇文章 0 订阅

订阅专栏

词性标注论文解读

概述
内容背景介绍
双向概率图网络介绍
总结

概述

2003 年的Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network是由斯坦福大学的Kristina Toutanova发表的。在他的文章中提出了一个新的词性标注方法，主要实现了三个层面的改进：
首先是概率图的方法综合考虑了词性的前向和后向状态矩阵；
其次是采用更为先进的词汇特征工程，广泛地使用多维度的词汇特征；
再者是在条件对数概率模型中使用更为有效的先验项；
最后对未知单词特征能够进行细粒度建模。

内容背景介绍

对于序列问题，如词性标注，几乎所有的方法都采用单向的方法沿着序列进行条件推理。无论是使用HMM、最大熵条件序列模型，还是决策树等其他技术，大多数系统都是通过序列朝一个方向工作的。所以本文作者觉得这种方法对序列问题的处理不够充分，基于此作者在这个方面进行了改进。

双向概率图网络介绍

在构建标签序列的概率模型时，通常使用有向图模型（例如，HMM（Brants，2000）或条件马尔可夫模型（CMM）（Ratnaparkhi，1996））分解序列的全局概率。例如，在图a所示的从左到右的单向图上，CMM的概率计算可以表示为：
$p(t,w)=∏_ip(t_i|t_{i-1},w_i)$
图b所示的从右到左的单线图概率计算可以表示为：
$p(t,w)=∏_ip(t_i|t_{i+1},w_i)$
图c所示的双向图则综合考虑了前向和后项的两个特征，概率的计算公式以下列公式为基准：
$p(t_i|t_{i+1},t_{i-1},w_i)$
在这里插入图片描述

语言图模型

图（a）和（b）中的结构是比较好理解的Bayes图模型，图（c）并不是标准的Bayes网，正是因为该图具有循环。由于图是循环的，因此并不能将大的联合概率估计分解为局部条件因子。
在这里插入图片描述
链式法则不允许通过乘以这两个量来构建图©所示的P（a，b）。所以，在适当的条件下，我们可以用吉布斯抽样的方法构建P（a，b）。作者在后续的实例中使用了最大熵模型构建了这个联合概率。

线性依存网络的推理

不管是不是循环概率图，都可以通过如下公式来定义score：
$score=∏_ip(x_i|pa(x_i))$
采用维特比（Viterbi）算法求上述score的最大值（作者文章中给出了伪代码，可以参考一下），所以这个求解过程和Tri-Grams是类似的，只是观察窗口大小不一样而已。这种方法总能找到精确的最大化序列，但只有在非循环网络的情况下，它才保证是最大似然序列。