问题提出:为了解决训练语料中的零概率问题。平滑处理的基本思想是一种“劫富济贫”,即提高低(零)概率,降低高概率,尽量使得概率分布趋于均匀。
加一平滑方法
假设每个二元语法出现的次数比实际出现的次数多一次,不妨将该处理方法称为加1法。
p(wi|wI−1)=1+c(wi−1,wi)∑wi[1+c(wi−1,wi)]=1+c(wi−1,wi)|V|+∑wi[1+c(wi−1,wi)] p ( w i | w I − 1 ) = 1 + c ( w i − 1 , w i ) ∑ w i [ 1 + c ( w i − 1 , w i ) ] = 1 + c ( w i − 1 , w i ) | V | + ∑ w i [ 1 + c ( w i − 1 , w i ) ]
加法平滑方法
p(wi|wI−1)=δ+c(wi−1,wi)δ|V|+∑wi[1+c(wi−1,wi)] p ( w i | w I − 1 ) = δ + c ( w i − 1 , w i ) δ | V | + ∑ w i [ 1 + c ( w i − 1 , w i ) ]
其中 0≤δ≤1 0 ≤ δ ≤ 1
Good-Turing估计法
nr是训练语料中恰好出现r次的n元语法的数目,假设它出现了r∗次。 n r 是 训 练 语 料 中 恰 好 出 现 r 次 的 n 元 语 法 的 数 目 , 假 设 它 出 现 了 r ∗ 次 。
r∗=(r+1)nr+1nr r ∗ = ( r + 1 ) n r + 1 n r
对于统计数为r的n元语法,其概率为 pr=r∗∑r=1∞nrr