NLP中几种常见的数据平滑方法

本文介绍了自然语言处理中解决零概率问题的数据平滑方法,包括加法平滑、古德-图灵估计法、Katz平滑、Jelinek-Mercer平滑、Witten-Bell平滑和绝对减值法。这些方法通过调整概率分布,提高低频项的概率,用于改进n元模型的性能。
摘要由CSDN通过智能技术生成

0、简介:

本文所要介绍的平滑就是用来解决这类零概率问题的。其本质核心就是“劫富济贫”,即提高低概率,降低高概率,尽量使概率分布趋于均匀。

1、加法平滑方法

假设每一个n元语法发生的次数比实际统计的次数多 δ \delta δ次。
p a d d ( w i ∣ w i − n + 1 i − 1 ) = δ + c ( w i − n + 1 i ) δ ∣ V ∣ + ∑ w i c ( w i − n + 1 i ) p_{add}(w_i|w_{i-n+1}^{i-1})=\frac{\delta+c(w_{i-n+1}^i)}{\delta|V|+\sum_{w_i}c(w_{i-n+1}^i)} padd(wiwin+1i1)=δV+wic(win+1i)δ+c(win+1i)

2、古德-图灵估计法

该估计法是很多平滑法的核心,其基本思路是:
对于任意一个出现 r r r次的n元语法,都假设其出现了 r ∗ r^* r次即: r ∗ = ( r + 1 ) n r + 1 n r r^*=(r+1)\frac{n_{r+1}}{n_r} r=(r+1)nrnr+1其中, n r n_r nr是训练语料中恰好出现r次的n元语法的数目。对于统计数为r的语法,其概率是: p r = r ∗ ∑ r = 1 ∞ n r r p_r=\frac{r^*}{\sum_{r=1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值