语言模型之平滑技术

注:本文主要介绍几种方法的个人理解,完全是白话,大神就不要来了。


平滑技术核心思想就是“劫富济贫”,主要是解决数据稀疏(sparsity)问题,主要技术有三:discount,backoff,插值。

一 discount

1 add one (add x)

假设此表包含n个词,就在分子和分母分别加上1和n

2 good turning

假设N元语法出现r次,那就它就按照比例缩小次数,溢出的概率根据开发集中未出现的情况平均分。

3 katz moothing

假设N元语法出现r次,那就它就按照比例缩小次数,溢出的概率根据(N-1)元的比重来分配。这里引入“利用低阶的语言模型概率来推算高阶的未出现的语言模型的概率”的思想,这可以通过迭代来实现。

二 back off

kneser-Ney

它采用了绝对减值法,就是对所有出现的n元语法模型减去一个固定的数,然后再按照(n-1)元的语法模型的概率分配未出现的n元语法模型。

三 插值

就是将上述训练好的模型进行一个插值,插值系数之和为一,需要根据开发集进行调整(tuning)


以上就是所要讲的内容,当然上述三种分类不一定正确,难免牵强,现实当中往往是结合实用的,希望给后来人一点参考。

参考文献:http://blog.sina.com.cn/s/blog_6962921f0100q8bd.html

                 http://people.csail.mit.edu/regina/6864/lec2-2.pdf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值