一、HMM
HMM属于生成模型,模型中2个假设:
- 输出观测值 X i X_i Xi之间相互独立;
- 齐次一阶Markov,即状态的转移过程中当前状态只与前一状态有关。
二、MEMM
P
(
I
∣
O
)
=
∏
t
=
1
n
exp
(
∑
a
)
λ
a
f
a
(
o
,
i
)
Z
(
o
,
i
i
−
1
)
,
i
=
1
,
⋯
,
n
P(I | O)=\prod_{t=1}^{n} \frac{\exp \left(\sum_{a}\right) \lambda_{a} f_{a}(o, i)}{Z\left(o, i_{i-1}\right)}, i=1, \cdots, n
P(I∣O)=t=1∏nZ(o,ii−1)exp(∑a)λafa(o,i),i=1,⋯,n
求和的作用在概率中是归一化,但是这里归一化放在了指数内部,管这叫local归一化。 来了,viterbi求解过程,是用dp的状态转移公式(MEMM的没展开,请参考CRF下面的公式),因为是局部归一化,所以MEMM的viterbi的转移公式的第二部分出现了问题,导致dp无法正确的递归到全局的最优。
δ
i
+
1
=
max
1
≤
j
≤
m
{
δ
i
(
I
)
+
∑
i
T
∑
k
M
λ
k
f
k
(
O
,
I
i
−
1
,
I
i
,
i
)
}
\delta_{i+1}=\max _{1 \leq j \leq m}\left\{\delta_{i}(I)+\sum_{i}^{T} \sum_{k}^{M} \lambda_{k} f_{k}\left(O, I_{i-1}, I_{i}, i\right)\right\}
δi+1=1≤j≤mmax{δi(I)+i∑Tk∑Mλkfk(O,Ii−1,Ii,i)}
- MEMM模型属于判别模型,打破了观察值之间相互独立产生的问题,但是由于状态之间的假设理论,MEMM倾向于选择拥有更少转移的状态,使得该模型存在 标注偏置问题(label bias problem)。
三、CRF(Conditional Random Field)
从概率图可以很形象的看出一个区别:
HMM是有向图,严格定义了y的有序性,只能从左至右。CRF是无向图,y无序,可左可右。HMM是生成模型,通过求联合概率获得;CRF是判别模型,通过条件概率求得。在如词性标注上的应用中CRF更合理,因为它直接求某个标注的概率,而HMM需要先算联合概率再转而求目标的概率。
对于所谓的条件和随机场的理解:
- 条件:属于生成模型
- 随机场:无向图模型
CRF模型属于判别模型,解决了标注偏置问题,去除了HMM中两个不合理的假设,当然,模型相应得也变复杂了。
CRF建模公式如下,整个过程的推导可以结合这个词性标注的案例更好理解 :CRF词性标注:
P ( I ∣ O ) = 1 Z ( O ) ∏ i ψ i ( I i ∣ O ) = 1 Z ( O ) ∏ i e ∑ k λ k f k ( O , l i − 1 , I i , i ) = 1 Z ( O ) e ∑ i ∑ k λ k f k ( O , I i − 1 , I i , i ) P(I | O)=\frac{1}{Z(O)} \prod_{i} \psi_{i}\left(I_{i} | O\right)=\frac{1}{Z(O)} \prod_{i} e^{\sum_{k} \lambda_{k} f_{k}\left(O, l_{i-1}, I_{i}, i\right)}=\frac{1}{Z(O)} e^{\sum_{i} \sum_{k} \lambda_{k} f_{k}\left(O, I_{i-1}, I_{i}, i\right)} P(I∣O)=Z(O)1i∏ψi(Ii∣O)=Z(O)1i∏e∑kλkfk(O,li−1,Ii,i)=Z(O)1e∑i∑kλkfk(O,Ii−1,Ii,i)
因为是判别模型,所以直接为了确定边界而去建模,因为创造出来就是为了这个分边界的目的。比如说序列求概率(分类)问题,直接考虑找出函数分类边界。所以才为什么会有这个公式。所以再看到这个公式也别懵逼了。
除了建模总公式,关键的CRF重点概念与MEMM类似:判别式模型、特征函数。