来源:Cousera哥大自然语言处理课程
标注问题
标记例子
Local VS Contextual
- Local:根据经验进行标记
- Contextual:根据上下文语法结构进行标记
KEY:Balance Local & Contextual
三元隐马尔科夫模型 (Trigram HMMs)
例子
参数估计
q(yi|yi−1,yi−2)
e(xi|yi)
低频率词汇问题
e(base,Vt)=0
导致
P(x1,x2,...,xn,y1,y2,...,yn+1)=0
因此无法确定 argmaxy1,y2,...,yn+1P .
解决办法
初步
1. 将词汇分为两块
第一块为常见词汇, times≥num(eg:5)
第二块为低频率词汇
2. 将低频率词汇映射到小的有限集(根据前缀、后缀等等)
例子
Viterbi算法
循环定义
得到序列
其中算法复杂度为 O(n|S|3)