数据平滑 自然语言处理

问题提出:为了解决训练语料中的零概率问题。平滑处理的基本思想是一种“劫富济贫”,即提高低(零)概率,降低高概率,尽量使得概率分布趋于均匀。加一平滑方法假设每个二元语法出现的次数比实际出现的次数多一次,不妨将该处理方法称为加1法。p(wi|wI−1)=1+c(wi−1,wi)∑wi[1+c(wi−1,wi)]=1+c(wi−1,wi)|V|+∑wi[1+c(wi−1,wi)]p(...
摘要由CSDN通过智能技术生成

问题提出:为了解决训练语料中的零概率问题。平滑处理的基本思想是一种“劫富济贫”,即提高低(零)概率,降低高概率,尽量使得概率分布趋于均匀。

加一平滑方法

假设每个二元语法出现的次数比实际出现的次数多一次,不妨将该处理方法称为加1法。

p(wi|wI1)=1+c(wi1,wi)wi[1+c(wi1,wi)]=1+c(wi1,wi)|V|+wi[1+c(wi1,wi)] p ( w i | w I − 1 ) = 1 + c ( w i − 1 , w i ) ∑ w i [ 1 + c ( w i − 1 , w i ) ] = 1 + c ( w i − 1 , w i ) | V | + ∑ w i [ 1 + c ( w i − 1 , w i ) ]
加法平滑方法
p(wi|wI1)=δ+c(wi1,wi)δ|V|+wi[1+c(wi1,wi)] p ( w i | w I − 1 ) = δ + c ( w i − 1 , w i ) δ | V | + ∑ w i [ 1 + c ( w i − 1 , w i ) ]

其中 0δ1 0 ≤ δ ≤ 1

Good-Turing估计法

nrrnr n r 是 训 练 语 料 中 恰 好 出 现 r 次 的 n 元 语 法 的 数 目 , 假 设 它 出 现 了 r ∗ 次 。

r=(r+1)nr+1nr r ∗ = ( r + 1 ) n r + 1 n r

对于统计数为r的n元语法,其概率为 pr=rr=1nrr

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值