词性标注HMM模型之Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network (2003)论文解读

概述

2003 年的Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network是由斯坦福大学的Kristina Toutanova发表的。 在他的文章中提出了一个新的词性标注方法,主要实现了三个层面的改进:
首先是概率图的方法综合考虑了词性的前向和后向状态矩阵;
其次是采用更为先进的词汇特征工程,广泛地使用多维度的词汇特征;
再者是在条件对数概率模型中使用更为有效的先验项;
最后对未知单词特征能够进行细粒度建模。

内容背景介绍

对于序列问题,如词性标注,几乎所有的方法都采用单向的方法沿着序列进行条件推理。无论是使用HMM、最大熵条件序列模型,还是决策树等其他技术,大多数系统都是通过序列朝一个方向工作的。所以本文作者觉得这种方法对序列问题的处理不够充分,基于此作者在这个方面进行了改进。

双向概率图网络介绍

在构建标签序列的概率模型时,通常使用有向图模型(例如,HMM(Brants,2000)或条件马尔可夫模型(CMM)(Ratnaparkhi,1996))分解序列的全局概率。例如,在图a所示的从左到右的单向图上,CMM的概率计算可以表示为:
p ( t , w ) = ∏ i p ( t i ∣ t i − 1 , w i ) p(t,w)=∏_ip(t_i|t_{i-1},w_i) p(t,w)=ip(titi1,wi)
图b所示的从右到左的单线图概率计算可以表示为:
p ( t , w ) = ∏ i p ( t i ∣ t i + 1 , w i ) p(t,w)=∏_ip(t_i|t_{i+1},w_i) p(t,w)=ip(titi+1,wi)
图c所示的双向图则综合考虑了前向和后项的两个特征,概率的计算公式以下列公式为基准:
p ( t i ∣ t i + 1 , t i − 1 , w i ) p(t_i|t_{i+1},t_{i-1},w_i) p(titi+1,ti1,wi)
在这里插入图片描述

语言图模型

图(a)和(b)中的结构是比较好理解的Bayes图模型,图(c)并不是标准的Bayes网,正是因为该图具有循环。由于图是循环的,因此并不能将大的联合概率估计分解为局部条件因子。
在这里插入图片描述
链式法则不允许通过乘以这两个量来构建图©所示的P(a,b)。所以,在适当的条件下,我们可以用吉布斯抽样的方法构建P(a,b)。作者在后续的实例中使用了最大熵模型构建了这个联合概率。

线性依存网络的推理

不管是不是循环概率图,都可以通过如下公式来定义score:
s c o r e = ∏ i p ( x i ∣ p a ( x i ) ) score=∏_ip(x_i|pa(x_i)) score=ip(xipa(xi))
采用维特比(Viterbi)算法求上述score的最大值(作者文章中给出了伪代码,可以参考一下),所以这个求解过程和Tri-Grams是类似的,只是观察窗口大小不一样而已。这种方法总能找到精确的最大化序列,但只有在非循环网络的情况下,它才保证是最大似然序列。

词汇化

词汇化是统计句法分析模型发展的一个关键因素,但用于标注的研究较少。作者在最大熵模型中,观察周围词及其标记的联合特征,以及当前词和周围词的联合特征。

未知词特征

本文作者对未知词的处理任然沿用了词汇特征的处理方法,通过分析单词的前缀后缀等特征去估计词性。

平滑处理

为了防止过拟合,文章采用高斯分布作为正则项对参数估计进行处理,计算公式为:
在这里插入图片描述

总结

这篇文章阐述了基于循环概率图的词性标注算法,有兴趣的同学可以自己阅读该论文,毕竟写博客的时间有限很多也没有解释特别清楚。

文章链接:Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network (2003)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值