三种平滑方法

最新推荐文章于 2023-10-16 09:30:27 发布

约定写代码

最新推荐文章于 2023-10-16 09:30:27 发布

阅读量1.2k

点赞数 1

分类专栏：信息检索文章标签：机器学习深度学习数据挖掘

本文链接：https://blog.csdn.net/flying_all/article/details/123375810

版权

信息检索专栏收录该内容

11 篇文章 1 订阅

订阅专栏

为了理解《LETOR: A benchmark collection for research on learning to rank for information retrieval》中提出的数据特征中的三个：LMIR.ABS、LMIR.DIR、LMIR.JM的计算方法，我查阅了很多资料。前面一篇博客是理解。这一篇也是。这篇博客的内容来自《A Study of Smoothing Methods for Language Models Applied to Ad Hoc Information Retrieval》。一作翟成祥，我曾经学过老师的文本检索课程。这篇文章主要写下自己的感受和学习到的。

1 论文目的

这篇论文的目的是研究平滑方法在信息检索中的作用。信息检索方法很多，这里评估的是使用语言模型建立query和文档相似度计算实现排序的信息检索方法。基于语言模型计算相似度的排序算法对平滑算法有多敏感？平滑算法的参数又该怎么选择？

2 语言建模方法

2.1 基础

我们假设一个query是根据一个语言模型基于document 生成的。
我们的目的是评估estimate $p (d ∣ q)$ 的大小。 $p (d ∣ q)$ 解释为d产生观测q的概率。
根据贝叶斯公式： $p(d|q)\propto p(q|d)p(d)$
假设p(d)服从均匀分布，对结果不产生影响，所以 $p(d|q)\propto p(q|d)$
当然p(d)也可以用一些非文本特征，例如文档长度、链接数量作为文档特征参与排序。在当前文档中认为是均匀分布。

2.2 可见词与不可见词

进一步 $\prod_ip(q_i|d)$ ，在本文档中使用一元语言模型（unigram language model ）建模。对于二元、三元语言模型建模方法参考：[10]D. H. Miller, T. Leek, and R. Schwartz (1999). "A hidden Markov model information retrieval system,In Proceedings of the 1999 ACM SIGIR Conference on Research and Development in Information Retrieval^ pp. 214-221. [20]F. Song and B. Croft (1999). “A general language model for information retrieval,” in Proceedings of the 1999 ACM SIGIR Conference on Research and Development in Information Retrieval^ pp. 279-280.

语言模型评估可能性的方式与TD-IDF是不同的，但有趣的是通过平滑方法可以在两者之间建立一种相似性。

一般平滑方法都会分成2个分布： $p_s(w|d)$ 表示可见词的分布， $p_u(w|d)$ 表示不可见词的分布。公式改写为如下：

$logp(q|d)=\sum_ilogp(q_i|d)\\ =\sum_{i;c(q_i;d)>0}logp_s(q_i|d)+\sum_{i;c(q_i;d)=0}logp_u(q_i|d)\\ =\sum_{i;c(q_i;d)>0}log\dfrac{p_s(q_i|d)}{p_u(q_i|d)} +\sum_ilogp_u(q_i|d)$

在这里有个注意的点。不可见词指的是在当前文档中不存在的词。例如query=“计算机散热”，当前文档中没有“散热”这个词，但是整体的语料库中是有"散热"这个词的。这样“散热”就是不可见单词。如果整个训练语料中都没有“散热”这个词，那这个词就不参与计算。

最后两部的等价过程是这样的：倒数第一步：第一部分是所有可见词的可见概率对数加和，第二部分是所有不可见词的不可见概率对数加和。
最后一步的第二部分是：所有词的不可见概率对数和。对加了可见词的不可见概率对数和，需要在第一部分减去，就是 $\sum_{i;c(q_i;d)>0}log\dfrac{p_s(q_i|d)}{p_u(q_i|d)}$ 了。

2.3 引入常量

我们再进一步假设 $p_u(q_i|d)=\alpha_dp(q_i|C)$ 。 $\alpha_d$ 是一个与文档相关的常数。 $p(q_i|C)$ 是一个集合语言模型（collection language model）。这里的C应该是整个训练语料库中的词总数。到此，我们有：
$logp(q|d)=\sum_{i;c(q_i;d)>0}log\dfrac{p_s(q_i|d)}{\alpha_dp(q_i|C)} +nlog\alpha_d+\sum_ilogp(q_i|C)$
n:查询的长度（query中词的个数）

现在这个公式分成两个部分。第一部分是权重，衡量每个词在query-document之间的权重。第二部分是只涉及到当前文档的常数，它与有多少概率分配给不可见词相关。 $q_i$ 的参数 $\dfrac{p_s(q_i|d)}{\alpha_dp(q_i|C)}$ 与词频成正比，与语料库中的词频成反比。 $p(q_i|C)$ 起到了类似于IDF的作用。第二部分我们可以认为它起到了类似于文档长度正则化的作用。

3 平滑方法

$p_{ml}(w|d)=\dfrac{c(w;d)}{\sum_wc(w;d)}$ c(w;d)是指w在d中的出现次数

基于复杂度以及有效性，作者选择了三种平滑方法：Jelinek-Merce、Dirichlet、Absolute discount。根据这三种计算得到的语言模型也是我需要的三个特征。

3.1 Jelinek-Merce

$p_s(w|d)=(1-\lambda)p_{ml}(w|d)+\lambda p(w|C)$
$\alpha_d=\lambda$

3.2 Dirichlet

$p_s(w|d)=\dfrac{c(w;d)+\mu p(w|C)}{\sum_wc(w;d)+\mu}$

$\alpha_d=\dfrac{\mu}{\sum_wc(w;d)+\mu}$

3.3 Absolute discount

$p_s(w|d)=\dfrac{max(c(w;d)-\delta,0)}{\sum_wc(w;d)}+\dfrac{\delta|d|_u}{|d|}p(w|C)$

$\alpha_d=\dfrac{\delta|d|_u}{|d|}$

$∣ d ∣$ 表示文档中的词的总量。
$d|_u$ 表示文档中不同词的个数。

4 试验以及结果

作者测试了不同长度的搜索词，在不同平滑方法上的效果。得到如下结论：
1 搜索效果对平滑敏感
2 Jelinek-Mercer表现相对来说会好一些，但是仅对于长的，详细的查询。对于长query，lambda可以等于0.7；对于短query，lambda等于0.1
3 Dirichlet prior 在短查询上来说表现比较好 μ的值一般在2000。 query越长，μ值越大。
4 Absolute discount在短查询上表现比较好，在长的详细的查询上表现不好。 $\delta$ 的值一般在0.7左右。
5 插值平滑策略效果要比backoff策略好。

平滑方法在语言相似度模型中可能有2个作用。一个是提高模型的准确率；第二个是降低非信息词的重要性。Dirichlet prior 在第一个作用中表现的很好，Jelinek-Mercer在第二个作用中表现很好。

约定写代码

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
三种平滑方法

为了理解《LETOR: A benchmark collection for research on learning to rank for information retrieval》中提出的数据特征中的三个：LMIR.ABS、LMIR.DIR、LMIR.JM的计算方法，我查阅了很多资料。前面一篇博客是理解。这一篇也是。这篇博客的内容来自《A Study of Smoothing Methods for Language Models Applied to Ad Hoc Information Retr
复制链接

扫一扫