viterbi算法用于中文词性标注
维特比(viterbi)算法与中文词性标注(一)—— 隐含马尔科夫模型
维特比(viterbi)算法与中文词性标注(二)—— 维特比算法
任务简述
中文词性标注是在中文分词器将文本划分为逐个词汇的基础上,将每个词的词性进行标注
输入:李 明 在 北京 考察 企业
输出:李/nr 明/nr 在/p 北京/ns 考察/v 企业/n
HMM模型
将中文词性标注套用到HMM模型中。
- 其隐藏的状态序列就是每个词汇的词性
- 每个状态的输出内容为预料中的词汇
首先讨论其对于HMM三大假设的符合情况:
- 每个词汇在句中某处的词性取决于该词的前一个词的词性
- 词汇的词性与该词汇在文中的前后位置无关
- 某个词汇的出现概率仅与其词性有关
根据模型的特点,可以见得我们要解决的问题属于第二类问题范畴:解码问题,在已知语料中的词汇序列的基础上,得到词性序列。
解决思路
根据训练集合的语料,计算得出HMM的五元组。
- 所有出现的词性
- 所有出现的词汇
- 每句话句首的词性