信息检索经典文章-1

最新推荐文章于 2024-06-24 11:11:12 发布

YJII

最新推荐文章于 2024-06-24 11:11:12 发布

阅读量1k

点赞数 2

分类专栏：论文记录文章标签：算法人工智能信息检索

本文链接：https://blog.csdn.net/Hekena/article/details/127155403

版权

论文记录专栏收录该内容

147 篇文章 9 订阅

订阅专栏

一 `Term Reweight`

Context-Aware Document Term Weighting for Ad-Hoc Search

论文核心：摒弃以往的以TF、词频这种简单的统计学方法为术语分配权重的方法，采用PLM的词表征作为术语特征重要性计算的依据之一。
提出的模型：a Context-aware Hierarchical Document Term weighting framework

文件过长，需切分为几个passage，先对passage中的术语做权值计算，（在前人研究中，提到段落中的词以200-300个词为佳）

term weight的predict阶段

1 段落中词的重要性预测

采用bert对token做embedding，之后，采用linear层得到词的weight。

在这里插入图片描述
之后，作者将实值预测缩放为可与现有检索模型一起使用的类似 tf 的整数。我们称这个权重为 tf𝐵𝐸𝑅𝑇，以传达它是使用 BERT 表示段落 𝑝 中术语 𝑡 重要性的另一种方式，计算公式如下：

在这里插入图片描述
可以得到passage的bag of words的weight，在操作中，1）为了处理 BERT 的子词，我们使用整个词的第一个子词的权重，以及 2）当一个词在文章中多次出现时，我们在多次出现时取最大权重

文件的所有passage的weight拼接，得到整个文件的bag-of-words的weight，
在这里插入图片描述
上述过程得到的是passage级别的term的为weight

2 document-level weight

在计算文件级术语重要性程度，提出了两种思路，一是平均计算，二是考虑passage前后顺序的计算。公式如下：

在这里插入图片描述
pwi中第一种方式是：均值
第二种方式是采用段落位置的倒数作为权值，1/i，i为段落在文件中的位置。

3将predict的term weight用于index

将BM25中tf值，采用term weight替换，作为检索返回的依据。

4 损失函数

MSE损失函数：在这里插入图片描述

true term weight estimate

我们有什么证据表明一个术语对文档检索的重要性？本文提出了三种训练策略：针对只有文档可用的情况的基于内容的方法，针对丰富的查询文档相关性评估可能受到攻击的情况的基于相关性的方法，以及针对搜索查询的情况的基于伪相关性的方法可以收集，但相关标签或用户活动不可访问。
这部分，没有细看，公式也文中作者自己定义的，可参照原文。

二 `Document expansion`

Document Expansion by Query Prediction

论文核心：将PLM用在了扩展查询的query中，利用生成模型，生成文件可能相关的query,扩展到文件的query中。
在这里插入图片描述
文中目标：预测和文件有关的query
长度设置：文件长度设置为400个token，query长度设置为100token
每个文件生成10个query。

三 `综述`

这个领域的综述：Pre-training Methods in
Information Retrieval
没有找到翻译版，不过英文版看起来，也还可以，大家围绕的点还是在BM25 、检索的几个过程。

1 检索流程：

在这里插入图片描述

2 经典检索方法

经典检索模型

：这些模型的关键思想是利用精确匹配信号来设计相关性评分函数。具体来说，这些模型考虑了在 q 和 d 之间精确匹配的归一化术语的易于计算的统计数据（例如，术语频率、文档长度和逆文档频率）。并且文档中出现的每个查询词的贡献总和用于得出相关性分数。在这些模型中，BM25 (Robertson et al., 1994) 被证明是有效的，并且仍然被认为是当今许多检索模型的强基线。除了 BM25 及其变体之外，还有其他具有代表性的检索函数，例如源自向量空间模型、DIR 的 PIV (Singhal et al., 2017)

学习排名 (LTR) 模型：

这些模型的关键思想是应用监督机器学习技术，使用手工制作的人工设计特征来解决排名问题。有效特征包括基于查询的特征（例如，查询类型和查询长度）、基于文档的特征（例如，PageRank、文档长度、内链接数和点击次数）和查询-文档匹配特征（例如，出现次数、BM25、N-gram BM25 和编辑距离）。根据损失函数中考虑的文档数量，LTR 模型可以分为三种基本类型： 1）Pointwise 方法，它考虑单个文档并将检索问题视为分类或回归问题。示例模型包括 PRank (Perceptron Ranking) (Crammer and Singer, 2001) 和 McRank (Li et al., 2007)。 2) 考虑成对文档的成对方法。例如，RankNet (Burges et al., 2005) 是一种成对方法，它采用交叉熵作为学习中的损失函数，而 RankSVM (Herbrich, 1999) 将排序作为成对分类问题，并采用 SVM 技术来执行学习任务. 3) 考虑整个文档列表的 Listwise 方法。例如，LambdaMart (Burges et al., 2006) 通过使用梯度下降来最小化列表损失函数来训练排名函数。有关更多详细信息，请参阅关于 IR 的 LTR 模型的另一项调查（Li，2014）。

神经检索模型：

这些模型的关键思想是利用神经网络来抽象相关信号以进行相关性估计。这些模型使用 q 和 d 的嵌入作为输入，并且通常使用相关标签以端到端的方式进行训练。与非神经模型相比，这些模型可以在没有手工特征的情况下进行训练。不失一般性，这些模型可以分为表示1）以表示为中心的模型旨在独立学习查询和文档的密集向量表示。然后使用余弦相似度和内积等指标来计算查询和文档之间的“距离”，以估计相关性得分。以表示为中心的模型示例包括 DSSM (Huang et al., 2013) 和 CDSSM (Shen et al., 2014) 等。2) 以交互为中心的模型捕获查询和文档之间的“交互”。这些模型利用相似度矩阵 A，其中每个条目 Aij 表示第 i 个查询词的嵌入与第 j 个文档词的嵌入之间的相似度。在构建相似度矩阵之后，基于交互的模型应用不同的方法来提取用于生成查询文档相关性分数的特征。以交互为中心的示例模型包括 DRMM (Guo et al., 2016) 和 convKNRM (Xiong et al., 2017b) 等。 3) 混合模型结合了以表示为中心的组件和以交互为中心的组件的设计，例如，Duet（Mitra 等人，2017）和 CEDR（MacAvaney 等人，2019）。有关更多详细信息，请参阅这些早期关于 IR 的 NeuIR 模型的调查（Onal 等人，2017 年；Guo 等人，2020 年）