数学之美--笔记1

1.统计语言模型

一阶马尔科夫假设:p(s)=p(w1)*p(w2|w1)*p(w3|w2)...p(wn|wn-1),p(wi|wi-1)=p(wi,wi-1)/p(wi-1)。基于条件概率的二元统计语言模型,该模型太过简化,认为一个词的出现只与其前面的一个词相关。

N-1阶马尔科夫假设:p(wi|w1,w2,w3,...,wi-1)=p(w1|wi-n+1,wi-n+2,...,wi-1)。基于条件概率的N元统计语言模型。

由于指数级别的时间复杂度、空间复杂度和高阶的实际效果提升不大,实际应用中最多的是三元模型。

马尔科夫假设的局限性:由于自然语言中上下文之间的相关性可能跨度非常大,再高阶的模型也无可奈何,所以可采用长程的依赖性(long distance dependency)来解决。

由于零概率问题,模型的训练需要通过平滑方法来解决。

采用统计语言模型来进行中文分词效果要普遍高于人工分词。主要注重分词的粒度和分词的一致性。

2.隐含马尔科夫模型

马尔科夫链




隐马尔科夫链









  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值