Jelinek-Merer与Absolute discounting 平滑方法

约定写代码

于 2022-03-08 17:47:23 发布

阅读量1.3k

点赞数

分类专栏：信息检索文章标签： python 自然语言处理

本文链接：https://blog.csdn.net/flying_all/article/details/123358474

版权

信息检索专栏收录该内容

11 篇文章

订阅专栏

本文介绍了Jelinek-Mercer平滑方法，它是通过低阶n-gram模型对高阶模型进行线性插值来处理未见过的n-gram。此外，还讨论了绝对折扣法，这是一种通过从非零计数中减去固定值D来建立高阶分布的平滑技术。D的估算涉及到训练语料库中出现1次和2次的term数量。这些方法在自然语言处理的n元模型中用于提高未知词汇组合的概率估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Jelinek-Merer

Jelinek-Merer平滑方法的基本思想是利用低元n-gram模型对高元n-gram模型进行线性插值。
在这里插入图片描述
$P_{ML}(w_i|w_{i-1})=\dfrac{c(w_i,w_{i-1})}{c(w_{i-1})}$

$c(w_i,w_{i-1})$ 是指词i和词i-1共同出现的次数。

$P_{ML}(w_i)=\dfrac{c(w_i)}{N}$
N: term总数

Absolute discounting 绝对值减法

也是一种插值方式。通过从每个非零计数中减去一个固定的值D来建立高阶分布。
在这里插入图片描述

D应该是在0到1之间。D的估计值可以是： $D=\dfrac{n_1}{n_1+2n_2}$
$n_1$ 是训练语料库中出现了1次的term总数，在n元语法模型中。
$n_2$ 是训练语料库中出现了2次的term总数，在n元语法模型中。

在这里插入图片描述
这部分的含义是：在n元语法模型中，和 $w_{i-1}$ 出现的不同元素个数。
$\sum_{w_i}c(w_{i-n+1}^i)$ 的含义是与 $w_i$ 一起出现次数为0的不同元素的个数。

心存疑问，这里不太确定。
对于一元模型，Panyunsheng8讲解的还是很清楚的。对于二元模型存在疑问。
在这里插入图片描述

参考资料：
MacCartney, B. (2005). Nlp lunch tutorial: Smoothing.
https://www.jianshu.com/p/a28acdc32b56
https://github.com/PangYunsheng8/Smoothing-Techniques-in-NLP/blob/master/smoothing.ipynb