分词算法模型学习笔记(二)——MEMM

分词算法模型学习笔记(二)——MEMM

Maximum Entropy Markov Model(MEMM,最大熵马尔科夫模型)

1.HMM的存在问题

生成式模型

需要准确地计算出观测序列X和隐藏状态序列Y的联合概率,然而这会导致以下两个问题:
1. 必须计算出所有的潜在可能路径的概率值大小(然后再挑概率值最大的那一个作为最终结果)
2. 对于某些未定义的观测值(如分词问题中的未登录词)需要统一设置一个默认的概率值

缺乏灵活性

如果对于某一个观测值,它可能并非由一个隐藏状态决定的,而是两个以上的隐藏状态综合作用而产生的,那么这时HMM就无能为力了。
比如说,对于词性标注问题,可能有这么两类非互斥的隐藏状态——1.是否首字母大写、2.是否以’er’结尾。

2.MEMM的特征

①判别式模型(最大熵模型)

对于给定的观测序列X,计算出各隐藏状态序列Y的条件概率分布
这种情况下,就不需要假设观测序列中各时刻的取值相互独立,也能算出概率值(因此比HMM更加合理)

MEMM模型图示
MEMM模型图示

要研究的目标函数: P(Y|X)=t[sPs(Yt|Xt)I(Yt1=s)]

其中, I() 为指示函数,在·为真和假时分别取值为1和0

Ps(Yt|Xt)=1Z(Xt)exp(aλafa(Xt,s))

其中 1Z(Xt)=sexp(aλafa(Xt,s)) 为归一化因子(很像Softmax函数)

λa 为权重因子

fa(Xt,Yt) 为特征函数

下面解释一下什么是特征函数:

特征函数

显然,此时a=< b,s>,且b为特征,s为目标状态

比如说,我们要给Usenet网站的FAQ页面的每一行文字打上标签(这些标签包括head、question、answer、tail)
然后我们有如下特征:

特征一览

对于特征函数 f<beginswithnumber,question> ,如果它对应的权重因子 λ<beginswithnumber,question> 越大说明begins-with-number→question越可信

 

②可以处理多种可同时出现的隐藏状态

 

③一些HMM的高效算法(如维特比算法)可以直接拿过来用

 

3.维特比算法

计算目标:

y^=argmaxyP(y|x)

定义局部概率 δt(si|x)=maxy1yt1P(y1,,yt1,Yt=si|x1,,xt)

其含义可以解释为前t个时刻中,在已经知道观测序列为 s1,,xt 的情况下,对于所有以 si 结尾的隐藏状态跳转路径,最有可能的是哪个,而它的概率值就是 δt(si|x)
同时因为要求的是这个概率值最大的隐藏状态序列本身,而不是它的概率值,因此还需要一个回退指针变量 ψ 用于记录状态的转移情况。

算法步骤:

  1. 定义局部概率的初始值(边界值)

δ1(x,si)=P(Y1=si)P(x1|si)

  1. 利用状态转移方程迭代计算当t=1,···,T-1时的局部概率值

δt+1(si|x)=maxsj[δt(sj|x)P(si|sj,xt+1)]

ψt(si|x)=argmaxsj[δt(sj|x)P(si|sj,xt+1)]

  1. 利用计算好了的局部概率值,确定回退起点

yT^=argmaxsjδT(sj|x)

  1. 利用回退指针变量 ψ ,逐个确定目标序列(t = T-1,···,1)

yt^=ψt(yt+1^|x)

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MEMM(Maximum Entropy Markov Models)模型是一种条件随机场模型,用于解决序列标注问题。在MEMM模型中,我们通过条件概率推导来对给定输入序列和标记序列的联合概率进行建模。 假设我们有一个观测序列X和对应的标记序列Y,我们的目标是找到给定观测序列X的条件下,标记序列Y的最佳估计。条件概率P(Y|X)可以通过MEMM模型来表示。 首先,我们将标记序列Y表示为一组随机变量Y1, Y2, ..., Yn,每个变量表示对应位置上的标记。然后,我们定义特征函数f(Yi, Xi, Yi-1, i)用于描述当前标记Yi和观测序列Xi以及前一位置标记Yi-1的关系。特征函数可以衡量不同标记在不同观测条件下的可能性。 接下来,我们使用特征函数的加权和来表示给定观测序列X条件下标记序列Y的联合概率分布。参数化权重向量λ,通过最大熵原理来估计模型参数。通过最大化对数似然函数L(λ)来优化参数,使P(Y|X)的估计最接近真实的条件概率分布。 最后,当我们得到参数λ的估计后,就可以利用MEMM模型来预测给定观测序列X的标记序列Y。通过对特征函数的权重进行加权求和,就可以得到每个标记的概率分布,从而找到最可能的标记序列。 总之,MEMM模型通过概率推导建模观测序列和标记序列的联合概率分布,然后通过最大化对数似然函数来优化模型参数,从而实现对标记序列的准确预测。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值