tag:词性标注,viterbi,解码算法
【今天看一篇分词和词性标注一体化的文章,解码问题又折腾了老半天,才想起来复习下viterbi】
该算法解决的是HMM经典问题中最优状态序列的选择问题。词性标注问题映射到隐马模型可以表述为:模型中状态(词性)的数目为词性符号的个数N;从每个状态可能输出的不同符号(单词)的数目为词汇的个数M。假设在统计意义上每个词性的概率分布只与上一个词的词性有关(即词性的二元语法),而每个单词的概率分布只与其词性相关。那么,我们就可以通过对已分词并做了词性标注的训练语料进行统计,需要统计如下矩阵: