HMM三大问题举例计算(以词性标注举例)
目录
0. 相关设定:
观测序列O为:“我-参加-面试”(已分词)
当前词性集包含(PN(代词),VV(动词),NN(名词))
“我”有PN,NN的可能词性(如:古代“我”也指兵器)
“参加” 有VV,NN的可能性(如:感谢您的“参加”)
“面试”有VV,NN的可能性(如:参加“面试”、“面试”求职者)
1. 学习问题(Learning problem):
问题描述:
已知观测序列O,求λ=(Π, A, B)
解决方式:极大似然估计(EM)
初始状态的参数估计:P(某词性) = count(某词性个数) / count(全部词数量)
假设统计得
Π:初始状态转移概率
PN | VV | NN | |
---|---|---|---|
空 | 0.6 | 0.1 | 0.3 |
观测概率的参数估计:P(观测序列某单词|某词性) = count(该单位标注为该词性的次数) / count(该词性