自然语言处理：盘点一下数据平滑算法_数据平滑处理算法-CSDN博客

本文介绍了几种用于自然语言处理中的数据平滑算法，包括Laplace法则、Good-Turing估计、绝对折扣和线性折扣、Witten-Bell算法、扣留估计、交叉验证及插值算法等。这些算法旨在解决因训练语料不足导致新序列概率为零的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　在自然语言处理中，经常要计算单词序列（句子）出现的概率估计。我们知道，算法在训练时，语料库不可能包含所有可能出现的序列。因此，为了防止对训练样本中未出现的新序列概率估计值为零，人们发明了好多改善估计新序列出现概率的算法，即数据平滑算法。

Laplace 法则

　　最简单的算法是Laplace法则，思路很简单，统计测试数据集中的元素在训练数据集中出现的次数时，计数器的初始值不要设成零，而是设成１。这样，即使该元素没有在训练集中出现，其出现次数统计值至少也是１。因此，其出现的概率估计值就不会是零了。

　　假设测试集 $V$ 中某个元素在训练集 $T$ 中出现 $r$ 次，经过Laplace法则调整后的统计次数为：

r * = r + 1

$r^*=r+1$

　　当然这样做，纯粹是为了不出现零概率，并没有解决对未见过的实例进行有效预测的问题。因此，Laplace法则仅仅是一种非常初级的技术，有点太小儿科了。

Good-Turing 估计

　　Laplace方法一个很明显的问题是 $\sum{r^*} \ne \sum r。$ Good-Turning 方法认为这是一个重大缺陷，需要给予改进。其实我觉得这真不算重要，只要能合理估计未见过的新实例的概率，总的统计次数发生变化又怎样呢？
　　
　　Good-Turing 修正后的计算公式还真的很巧妙，它在Laplace法则后面乘了一个修正系数，就可以保证总次数不变。这个拿出来炫一炫还是没问题的：
　　

r * = (r + 1) n r + 1 n r

$r^*=(r+1)\frac{n_{r+1}}{n_r}$

其中， $n_r$ 表示测试集 $V$ 中，一共有 $n_r$ 个元素在训练集 $T$ 中出现过 $n_r$ 次。

　　虽然我觉得这个方法没啥用，但是它的确保证了测试集中元素在训练集中出现的总次数不变。即：

N 1 = \sum r = 0 \infty r n r = 0 \times n 0 + 1 \times n 1 + 2 \times n 2 + . . . N 2 = \sum r = 0 \infty r * n r = 1 \times n 1 n 0 \times n 0 + 2 \times n 2 n 1 \times n 1 + . . . = 1 \times n 1 + 2 \times n 2 + . . .

$\begin{matrix} N_1=\sum_{r=0}^{\infty}rn_r=0\times n_0 + 1\times n_1+2 \times n_2 + ...\\ N_2=\sum_{r=0}^{\infty}r^*n_r = 1 \times \frac{n_1}{n_0}\times {n_0} +2 \times \frac{n_2}{n_1}\times{n_1}+...\\ =1\times n_1+2 \times n_2 + ... \end{matrix}$

　　显然， $N_1=N_2$ 。或许这个方法解决不了自然语言处理问题，而且 $n_r=0$ 时公式也会失效，但其思路应该还是很有价值的，或许解决其他问题能用得上。

绝对折扣和线性折扣

　　估计发明的作者受到 Good-Turing 的刺激了，认为这个方法就是“劫富济贫”，把数量较大的统计次数拿出一部分均给了较小的统计次数，减少贫富差距。只不过这个方法用了一个很有技巧的公式掩盖的其本质。
　　
　　与其羞羞答答“劫富济贫”，不如来个赤裸裸的方法，于是乎就出现了绝对折扣和线性折扣方法。
　　
　　问题是，“劫富济贫”并不是我们的目的，我们需要的是能够对语料库中从未出现过的句子做出概率判断。要得到正确的判断，需要“劫”多少？“济”多少？这个问题绝对折扣和线性折扣都回答不了。所以，无论Good-Turing方法，还是这两种折扣方法，本质上都没跳出 Laplace 法则的思路。
　　

Witten-Bell算法

　　Witten-Bell算法终于从 Laplace 算法跳了出来，有了质的突破。这个方法的基本思想是：如果测试过程中一个实例在训练语料库中未出现过，那么他就是一个新事物，也就是说，他是第一次出现。那么可以用在语料库中看到新实例（即第一次出现的实例）的概率来代替未出现实例的概率。
　　
　　假设词汇在语料库出现的次数参见下表：

$r$	1	2	3	4	5
$n_r$	50	40	30	20	10

则

N = 1 \times 50 + 2 \times 40 + 3 \times 30 + 4 \times 20 + 5 \times 10 = 350 T = 50 + 40 + 30 + 20 + 10 = 150

$\begin{matrix} N = 1 \times 50+2 \times 40+3 \times 30+4 \times 20+5 \times 10 = 350 \\ T = 50+40+30+20+10 = 150 \\ \end{matrix}$

　　那么，我们可以用
　　

T N + T = 150 350 + 150 = 0.3

$\frac{T}{N+T}=\frac{150}{350+150}=0.3$

近似表示在语料库看到新词汇的概率。

　　我不能说这个方法有多少道理，但与那些“劫富济贫”的方法相比，它至少提供了一个说得过去的理由。
　　

扣留估计和交叉检验

　　
　　扣留估计和交叉检验这两种方法估计是受到Witten-Bell算法启发了，但是思路没跳出该方法套路，而且手法比较卑劣。和Witten-Bell算法一样，对于所有遇到的新事物，都给出完全相同的概率预测。

插值算法

　　
　　前面的平滑算法对于从来没出现的n-gram都给与相同的概率估计，有些情况下这并不合适。事实上我们可以考虑根据n-gram中的(n-1)gram的频率产生一个更好的概率估计。如果 (n-1)gram很少出现，就给n-gram一个较小的估计，反之给出一个较大的估计。
　　例如，假定要在一批语料库上构建二元语法模型，其中有两对词的同现次数为0：