自然语言处理--HMM.MEMM,CRF(四)

MEMM(Maximum-entry Markov models)最大熵模型

好,说完了,HMM,我们来看看MEMM。
MEMM和HMM第一个不同的地方是,HMM是生成式模型,而MEMM是判别式模型,它是对如下概率进行建模:

p(y1,y2,...,yn|x1,x2,...,xn) p ( y 1 , y 2 , . . . , y n | x 1 , x 2 , . . . , x n )

具体是建模方法如下:
p(y1,y2,...,yn|x1,x2,...,xn)=i=1np(si|s1,...,si1,,x1,...,xn)=i=1np(si|si1,,x1,...,xn) p ( y 1 , y 2 , . . . , y n | x 1 , x 2 , . . . , x n ) = ∏ i = 1 n p ( s i | s 1 , . . . , s i − 1 , , x 1 , . . . , x n ) = ∏ i = 1 n p ( s i | s i − 1 , , x 1 , . . . , x n )

第一个等式是链式法则,很容易懂。我们观察第二个等式,发现MEMM做了很HMM很类似的一个假设就是第i个位置的状态仅和第 i1 i 1 位置的状态的有关(齐次独立性假设)。
那么 p(si|si1,,x1,...,xn) p ( s i | s i − 1 , , x 1 , . . . , x n ) 再往下怎么弄呢?我们将这一概率形式建模成一个log-linear模型(这又是一段故事了),即:
p(si|si1,x1,...,xn)=exp(w.ϕ(x1,...,xn,i,si1,si)exp(w.ϕ(x1,...,xn,i,si1,s) p ( s i | s i − 1 , x 1 , . . . , x n ) = e x p ( w . ϕ ( x 1 , . . . , x n , i , s i − 1 , s i ) ∑ e x p ( w . ϕ ( x 1 , . . . , x n , i , s i − 1 , s ′ )

(看来还是得说说这个log-linear, 跑不掉的 手动笑哭)
到此,MEMM是建模过程就完成了,参数的估计参见log-linear,
解码,viterbi

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值