Good-turning估计

吴军数学之美又看了一遍,写的有深有浅,比如这次,有不同的感觉。


统计预言模型的数据稀疏问题解决方案–古德图灵估计
接上
这里引入Good-turning估计
Good-turning的主要思想是从概率的总量中分配少量的比例给零概率项。
假定在语料库中出现 r 次数的词有Nr个,则有

N=r=1rNr

r 较小时,我们使用dr代替 r ,这里dr<r, dr 的值可由下式表示
dr=(r+1)Nr+1Nr

这样可以保证
N=rdrNr

这里我们考虑一个经验,一般来说 r 越大,词的数量Nr就越小,即验证了上述 dr<r d0>0 .这样的代替可以让数据稀疏度有效的降低,所有词的概率估计会看起来很平滑。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值