摘要
多阶段排名管道在现代搜索系统中一直是一个实用的解决方案,其中第一阶段检索是返回候选文档的子集,后一阶段尝试重新排列这些候选文档。
与过去几十年通过快速技术变化的重新排序阶段不同,第一阶段检索长期以来一直由经典的基于术语的模型主导。不幸的是,这些模型存在词汇不匹配问题,这可能会从一开始就阻止相关文档的重新排序阶段。
因此,为可以有效实现高召回率的第一阶段检索构建语义模型一直是长期希望。
最近,我们见证了对第一阶段语义检索模型的研究兴趣爆炸式增长。我们相信调查当前状态的正确时间,从现有方法中学习,并为未来的发展提供一些见解。
在本文中,我们描述了单阶段检索模型在统一框架下的现状,以阐明经典的基于术语的检索方法、早期语义检索方法和神经语义检索方法之间的联系。此外,我们确定了一些开放的挑战并展望了一些未来的方向,希望激发更多关于这些重要但研究较少的主题的研究。
介绍
大规模查询文档检索是搜索系统中的一个关键问题,例如 Web 搜索引擎,其目的是在给定用户查询的情况下从大型文档存储库中返回一组相关文档。为了平衡搜索效率和有效性,现代搜索系统在实践中通常采用多阶段排序管道,如图1所示。第一阶段检索旨在通过一些专门设计的索引结构辅助的更便宜的排名模型从大型存储库中返回初始候选文档集。
之后,几个重新排序阶段采用更复杂和有效的排名模型来修剪和改进前一阶段输出的排序列表。这种“检索和重新排序”管道已广泛应用于学术界[40,147]和工业[133,167],并在多个信息检索(IR)基准上取得了最先进的结果[59,160,205]。
除了管道架构,为了实现成功的检索,人们普遍认为系统需要很好地理解查询和文档,以便它可以找到与用户信息需求的相关结果。
因此,语义模型在整个管道中都是预期的,但不同阶段的要求和目标不同。
对于第一阶段检索,该模型旨在从整个集合中召回所有潜在的相关文档。因此,需要构建可以有效实现高召回率的语义模型——即在短时间内返回包含尽可能多的相关文档的文档子集。
对于后一个重新排序阶段,只有少量文档被馈送到排名模型中。因此,用于重新排序的语义模型允许使用更复杂的架构来实现高精度——也就是说,将尽可能多的相关文档放在列表的顶部位置。
在过去的几十年里,我们见证了重新排序阶段,通过快速技术转向更强大语义模型,从早期的概率模型[177,178,202]到学习将模型[126,134]排名到最近的神经排名模型[82,96,161]。具体来说,在交叉注意力模型上使用 BERT 风格的预训练任务,查询-文档对之间的更好的上下文表示和更深层次的交互可以显着提高重新排序的有效性 [161, 163]。然而,这些模型通常在计算上非常昂贵,这使得它们无法处理高吞吐量传入的查询,每个查询在第一阶段检索中有大量候选文档。
相反,第一阶段检索长期以来一直由经典的基于术语的模型主导。具体来说,查询和文档都采用离散符号表示(即词袋(BOW)表示),并利用倒排索引技术来管理大规模文档。然后将基于术语的检索模型,如 BM25(术语匹配 + TFIDF 权重)应用于第一阶段检索。显然,由于逻辑简单、索引强大,这种基于术语的模型非常有效。同时,它们也被证明在实践中实现了合理的良好召回性能[40,133]。然而,这种基于术语的模型仍然存在明显的缺点:
(1)由于独立性假设,它们可能遭受词汇不匹配问题 [72, 239],
以及(2)它们可能无法通过忽略术语排序信息很好地捕获文档语义[127]。
由于这些限制,基于术语的模型可能会起到“阻塞器”的作用,以防止模型一开始就从相关文档重新排序。为了解决这个问题,在过去的几十年里,人们做出了持续的努力,包括查询扩展[119,124,171,217]、文档扩展[3,65,135]、术语依赖模型[76,148,218]、主题模型[54,213]和IR的翻译模型[21,108]等。
然而,第一阶段检索的研究进展相对较慢,因为大多数这些方法仍处于离散符号表示范式中,不可避免地继承了其局限性。
近年来,随着 IR 中表示学习方法的发展,我们见证了第一阶段语义检索模型的研究兴趣爆炸式增长。自2013年以来,词嵌入技术[26,149,168]的兴起激发了大量利用它进行第一阶段检索的工作[45,73,207]。与离散符号表示不同,词嵌入是一种密集表示,可以在一定程度上缓解词汇不匹配问题。2016年后,人们对将深度学习技术应用于第一阶段检索的研究兴趣激增[28,87]。**这些方法要么被研究以改进传统离散符号表示范式中的文档表示 [14, 49, 164],要么直接在稀疏/密集表示范式中形成一系列新的语义检索模型 [81, 100, 112, 228]。**由于已经创建了大量工作,我们相信从现有方法中学习并为未来的发展提供一些见解是调查当前状态的正确时间。
本调查侧重于非结构化文本第一阶段检索的语义模型,在以下部分中称为语义检索模型。我们在一个统一的框架下描述了第一阶段检索模型的现状,以阐明经典的基于术语的检索方法、早期语义检索方法和神经语义检索方法之间的联系。
具体来说,我们关注最近的神经语义检索方法,从模型架构的角度将它们总结为三种范式,即稀疏检索方法、密集检索方法和混合检索方法。我们还参考了神经语义检索模型学习的关键主题。
此外,我们讨论了未解决的挑战,并提出了未来工作的潜在有前途的方向。应注意以下内容。首先,一些研究还参考第一阶段检索排名阶段、搜索阶段或召回阶段。在本次调查中,我们将其称为一致性和简单性的检索阶段。其次,调查主要关注语义检索模型的排名算法,因此只会简要提及索引方法。对稀疏或密集索引技术感兴趣的读者可以参考其他作品[38,157,235,241]。
据我们所知,这是第一阶段检索的传统和神经语义模型的第一个调查。它回顾了1990年至2013年提出的早期语义检索模型,涵盖了主要会议(如ACL、ICLR、AAAI、SIGIR、WebConf、CIKM、WSDM、EMNLP和ECIR)和期刊(如TOIS、TKDE、TACCL和IP&M)在2013年至2021年期间发表的神经语义检索模型。
已经有一些关于IR的神经模型的调查[83,151,152,165],但它们都没有专注于第一阶段检索。例如,Onal等人[165]关注神经方法在不同IR任务中的应用。郭等人。 [83] 深入研究了用于重新排序阶段的深度神经网络。对于第一阶段检索,Li 和 Xu [127] 的 booklet 讨论了早期的语义检索模型,但没有最近蓬勃发展的神经模型用于第一阶段检索。
最近,Lin 等人。 [131] 讨论了第一阶段检索和重新排序阶段的几个预训练模型。与它们不同的是,我们在一个统一的框架下全面概述了第一阶段检索的语义模型,包括早期的语义检索模型、神经语义检索模型以及它们之间的联系。
总结:
(1)我们在一个统一的框架下描述了第一阶段检索模型的现状,以阐明经典的基于术语的检索、语义检索的早期方法和语义检索神经方法之间的联系。
(2)我们对语义检索模型进行了全面和最新的回顾,简要回顾了早期的语义检索模型以及最近神经语义检索模型的详细描述。
(3)我们从模型架构的角度将神经语义检索模型总结为三种范式:稀疏检索方法、密集检索方法和混合检索方法。我们还讨论了模型学习的关键主题,包括损失函数和负采样策略
(4)我们讨论了一些开放的挑战,并提出了未来工作的潜在有前途的方向。
2语义检索模型的MAJOR应用
第一阶段检索在几乎所有大规模 IR 应用中都起着至关重要的作用。在本节中,我们描述了三个主要的文本检索应用:临时检索 [12]、开放域问答 (OpenQA) [191, 206] 和基于社区的问答 (CQA) [31, 193]。
临时检索是一种典型的检索任务,对临时检索模型的研究历史很长。在这个任务中,用户将他们的信息需求表示为查询,然后在检索系统中触发搜索以获得相关文档。根据与用户查询的相关性程度,所有检索到的文档通常作为排名列表返回。**特别检索的一个主要特点是查询和文档之间的长度异质性。查询的长度通常很短,仅包含几个关键字 [151],而文档的文本更长,从多个句子到几个段落。**查询和文档之间的这种异质性导致了经典的词汇不匹配问题,这在检索阶段以及特别检索中的重新排序阶段一直是一个长期的挑战[127]。支持可靠评估第一阶段检索模型的最早数据集总是基于 TREC 集合,例如美联社新闻专线 (AP)、华尔街日报 (WSJ) 和 Robust [117]。
这些集合中的文档数量通常是在数十万中,文档通常是新闻文章。之后,构建了基于 Web 数据的更大集合,例如 ClueWeb [44],用于评估检索技术。然而,这些数据集中的查询数量只有几百个,不足以训练基于神经的检索模型。近年来,发布了MS MARCO[160]、TREC CAR[59]和TREC深度学习Track[47]等大规模数据集,这些数据集为数十万个查询标记相关文档。这些大规模数据集的可用性极大地促进了神经检索模型的发展。此外,还有一些特定领域的检索数据集,例如 GOV2 [43]、TREC Medical Records Track (MedTrack) 和 TREC-COVID [203],它们也通常用于评估。
OpenQA 是一个任务,可以使用大量文档(例如 Wikipedia 或 Web 页面)作为信息源 [110] 来回答人类可能提出的任何类型的(事实)问题。**与旨在返回文档排序列表的临时检索不同,OpenQA 任务是将文本跨度提取为问题的答案。**为了实现这一点,大多数现有的工作都将 OpenQA 系统构建为两阶段管道 [36]:(1)文档检索器从大规模集合中选择可能包含答案的一小组相关文档; (2) 文档阅读器从文档检索器返回的相关文档中提取答案。在我们的工作中,我们只考虑文档检索器组件,因为文档阅读器超出了这项工作的范围。
通常,OpenQA 任务中的问题是一个自然语言句子,它具有格式良好的语言结构,而文档通常是一小部分文本,从几个句子到段落 [56, 63]。此外,相关文档不仅需要与主题相关,还需要正确解决这个问题,除了精确的术语匹配特征外,还需要更多的语义理解。为了评估 OpenQA 任务的第一阶段检索模型,有几个基准数据集可用。最常用的数据集,例如 SQuAD-open [36]、SearchQA [63]、TriviaQA-unfiltered [107] 和 Natural Questions Open [116],具有数万个查询进行模型训练。一些小规模数据集,例如 WebQuestions [20] 和 CatedTREC [16],也经常用于模型评估。这些数据集中的文档集合通常基于维基百科页面(例如,SQuAD-open 和 Natural Questions Open)或网页(例如 SearchQA 和 WebQuestions),查询由众包工作者编写(例如 SQuAD-open)或从现有网站(例如,SearchQA 和 TriviaQA-unfiltered)。
CQA 旨在使用存储库中存档的问答 (QA) 对来解决用户的问题,因为 CQA 系统已经积累了大量高质量的人工生成的 QA 对,例如 Yahoo!Answers, 1 Stack Overflow, 2 和 Quora。3
有两种不同的方法可以为用户的问题生成答案。
一是如果存在答案,直接从集合中检索答案[208]。
另一种是从集合中选择重复的问题,以伴随的答案为结果[212]。
这两种方法都要求检索系统首先从整个集合中召回候选子集,然后重新排列候选以生成最终结果。然而,这两种方法的目标(即答案和问题)通常具有非常不同的表达,导致语义建模方面面临不同的挑战。首先,重复的问题检索需要捕获单词(短语)之间的语义相似性,因为通常有不同的表达方式来表达相同的问题。其次,答案检索需要对问题和答案之间的逻辑关系进行建模。尽管基于 CQA 数据构建了许多数据集,但其中一些适合评估第一阶段检索模型。现有的相关工作通常在 QQP 4 和 WikiAnswers [66] 数据集上进行实验。
还有一些其他检索场景,如实体链接[80]、电子商务搜索[125,128,234]和赞助搜索[68]。对于这些应用程序,学术研究人员和工业开发人员已经意识到利用语义信息进行第一阶段检索的重要性。由于页面限制,我们不会在本次调查中讨论这些工作,但有可能有必要将应用于文本检索的技术推广到其他检索任务。
3 背景
在本节中,我们首先通过给出第一阶段检索模型的统一公式来表征第一阶段检索。然后,我们引入了典型的索引方法协同检索模型来支持高效的检索。最后,我们总结了经典的基于术语的检索方法。
3.1问题形式化
给定一个查询 q,第一阶段检索旨在从大型语料库 C = {d1, d2,., dN }。与具有一小组候选者的重新排序阶段不同,第一阶段检索的语料库大小 N 可以从数百万(例如 Wikipedia)到数十亿(例如 Web)不等。因此,效率是第一阶段检索中使用的模型的一个关键问题
形式上,给定数据集D={(qi,Di,Yi)}n i=1,其中qi表示用户查询,Di=[di1,di2,…,dik]表示查询qi的文档列表,并且Yi=[yi1,yi2,……,yik]∈{1,2,…,l}是Di中每个文档的对应相关性标签。相关性标签l>l−1>··>1之间存在一个总顺序,其中>表示顺序关系。这里要注意的是,每个查询的标记文档的数量k通常明显小于语料库大小N,因为不可能手动注释所有大量的文档。
第一阶段检索的目标是从D中学习一个模型s(·,·),该模型对相关的(q,D)对给予高分,对无关的对给予低分。对于任何查询文档对(q,d),s(q,d)给出反映q和d之间的相关性的分数,从而允许根据预测分数对语料库C中的所有文档进行排名。在不失一般性的情况下,评分函数可以通过以下统一公式进行抽象:
为了建立第一阶段检索的响应模型,它对这三个组件提出了许多要求:
文档表示函数ψ应该独立于查询,因为在部署搜索系统之前,查询是未知的。通过这种方式,可以使用第3.2节中的方法离线预计算和索引文档表示。同时,这意味着ψ(d)分量可以在一定程度上是复杂的,因为它对在线服务没有影响
查询表示函数φ需要尽可能高效,因为它需要在线计算查询嵌入。由于独立性的性质,两个**分量φ和ψ可以相同或不同,这足够灵活,**可以为具有同质或异构输入的不同检索任务设计模型。
为了满足实时检索的要求,一方面,评分函数f应该尽可能简单,以最大限度地减少在线计算量,另一方面,它必须考虑索引方法。
3.2 索引方法
如前所述,第一阶段检索和重新排序阶段之间的一个主要区别是,前者对存储库中的大型文档进行排序。因此,第一阶段检索模型的效率是核心考虑因素之一。在实践中,为了支持在整个存储库中存储和快速检索文档,检索系统需要建立索引,其中索引技术对于在线服务期间的快速响应至关重要。有许多索引技术,如签名、反向索引和密集向量索引。与其探索所有现有的方法,我们只描述了两种典型索引方案的基本原理
倒排索引
反向索引是目前最流行的索引方案,由于其简单高效,被用于许多应用。
在构建反向索引之前,会对集合中的每个文档进行解析,并将其分段为一个令牌列表。
然后,创建反向索引,该索引主要由一个字典和一组发布列表组成。
这本词典包含了在集合中找到的所有术语及其文档频率。每个张贴列表记录文档标识符、术语出现频率,以及可能出现相应术语的文档的其他信息。在在线服务过程中,对于用户的查询,在反向索引的帮助下,依次提取最相似的文档。具体地说,查询一次处理一个术语。最初,每个文档与查询的相似度为零。然后,对于每个查询项t,t的发布列表中的每个文档的相似性得分增加t对查询文档对的相似性的贡献。一旦处理了所有的查询项,就识别出k个最大的相似性得分,并将相应的文档列表返回给用户。事实上,为了提高检索效率,在检索过程中应用了许多加速策略,但此处省略了这些策略。关于倒索引技术的更多细节可以在其他作品中找到[214241]。
近似最近邻(ANN)搜索算法的密集向量索引
随着神经表示学习方法的发展,基于近似最近邻(ANN)搜索算法的密集向量索引被用于支持新的表示范式。反转索引工作良好的原因之一是文档的术语矩阵非常稀疏。
然而,大多数语义检索模型产生密集和分布式的文档表示,因此反向索引方法不再适用于从大型集合中高效检索文档。根据等式(1),一旦计算了查询嵌入和所有文档嵌入,检索问题可以被视为最近邻居搜索问题[188]。
这个基本问题已经在研究界得到了很好的研究[1,8]。
最近邻居搜索最简单的方法是蛮力搜索,它扫描所有候选项并逐一计算相似性得分。然而,当藏品的规模超过某一点时,brueforce搜索就变得不切实际了。
因此,大多数研究都采用人工神经网络搜索[11,64129],这允许在精度上略有损失,同时在速度上提高了多个数量级。通常,现有的ANN搜索算法可分为四种主要类型:基于树的[17,19]、基于哈希的[53,99]、基于量化的[79,102]和接近图方法[113,144]。
ANN搜索的最早解决方案是基于位置敏感哈希[99],但目前的邻近图方法[113144]在大多数方面都基于流行的基准,在所有方法中产生了更好的性能。5基于图的方法通过保留邻域来建立索引。每个单独数据点的信息指向其他数据点或一组枢轴点。然后,提出了各种贪婪启发式方法来导航给定查询点的邻近图。到目前为止,已经开发了几个用于人工神经网络搜索的开源库,如Faiss[105]和SPTAG[39],并建立了支持人工神经网络检索的搜索引擎6,7,8,并得到了广泛应用。
3.3 基于经典术语的检索
本节概述了第一阶段检索的经典基于术语的方法,包括向量空间模型(VSM)、概率检索模型和IR的语言模型。通常,这些方法基于BOW假设构建查询和文档的表示,其中每个文本都表示为其单词的一个包(多集),无视语法甚至语序。特别地,表示函数φ和ψ被设置为手动定义的特征函数,例如单词频率,并且表示的维度(即k1和k2)通常等于词汇大小。对于查询和文档,表示函数φ和ψ通常不同,但它们都保证了表示的稀疏性,因此反向索引可以用于支持高效检索。
基于术语的方法的早期代表是VSM[185],它将查询和文档表示为公共向量空间中的高维稀疏向量。在这个框架下,查询和文档被视为向量,每个维度对应于词汇表中的一个术语,其中每个维度的权重可以通过不同的函数来确定,例如星号频率(TF)、逆文档频率(IDF)或它们的组合[183184]。然后,可以使用查询向量和文档向量之间的相似性(通常是余弦相似性)作为查询文档对的相关性度量。然后可以使用得到的分数来选择查询的最相关文档。VSM已经成为一系列IR解决方案的基础——IR的概率检索模型和语言模型都可以看作是具有不同加权方案的VSM的实例化。
概率方法是IR中最古老的形式模型之一,它引入概率论作为估计关联概率的原则基础。二进制独立模型(BIM)[178]是最具原创性和影响力的概率检索模型。它表示文档和对二进制术语向量的查询,如果文档中出现相应的术语,则条目为1,否则条目为0。**通过这些表示,BIM引入了“二进制”和“术语独立性”假设。但这些假设与事实相反,因此提出了一些扩展来放松BIM的一些假设,如树依赖模型[202]和BM25[177]。特别是,BM25考虑了文档频率、文档长度和TF,**这在不同的学术研究和商业系统中得到了广泛应用,并取得了相当成功[133167]。
IR[170]的语言模型(LM)不是显式地对相关性概率建模,而是为每个文档d建立语言模型Md,然后基于生成查询q的可能性对文档进行排序(即,P(q|Md))。文档语言模型也建立在BOW假设的基础上,可以实例化为多个伯努利[170]或多项[891150]。Ponte和Croft[170]的实验结果证明了来自语言模型的术语权重相对于传统的TF-IDF权重的有效性。此外,语言模型为建模检索任务提供了另一个视角,并启发了许多扩展方法[29229]。
总之,以浅词汇的方式对相关性进行建模,特别是与反向索引相结合,赋予了经典的基于术语的模型在效率方面的关键优势,使得从数十亿文档中快速检索。然而,这种范式也伴随着明显的缺点,比如众所周知的词汇不匹配问题或不能很好地捕捉文本语义。因此,用于提高第一阶段检索性能的更复杂的语义模型已经开始吸引研究人员的兴趣,并在下文中进行了讨论。
基于单词的方式对相关性进行建模,加上反向搜索,经典的基于术语的模型,BM25
2009
但是不能处理文章的语义信息
4 期间的基于语义的方法进行提取
从20世纪90年代到21世纪初,人们进行了广泛的研究来改进基于术语的检索方法。它们大多从外部资源或集合本身挖掘信息,以丰富查询表示φ(q)、文档表示ψ(d),或两者都用于语义检索。在这里,我们简要介绍一下其中的一些。
4.1 查询扩展
为了弥补查询和文档之间的不匹配,使用查询扩展技术来使用从外部资源中选择的术语扩展原始查询[217]。通过这种方式,查询表示φ(q)得到了丰富,并且在检索过程中可以通过扩展的查询项考虑更多的文档。
扩展query 增加多种query 来查询到更多的相关文档,使用从外部资源进行选择
**查询扩展是将相关术语添加到查询中以提高检索效率的过程。**有许多查询扩展方法,它们可以分为全局方法[124171]和局部方法[2230]。
全局方法扩展和重构quert单词通过分析正在搜索的语料库中的单词共现或使用外部手工制作的词库(例如WordNet)。
尽管许多数据驱动的查询扩展方法(例如[13])可以提高平均检索性能,但它们在查询中是不稳定的。
但是,本地方法会根据原始查询检索到的排名靠前的文档来调整查询。这种查询扩展被称为伪相关反馈(PRF)[33],已被证明对提高许多检索模型的性能非常有效[138179]。
相关性模型[119]、混合模型和分歧最小化模型[230]是在语言建模框架下提出的第一种PRF方法。从那时起,已经提出了其他几种局部方法,但相关性模型仍然是最先进的PRF方法之一,并且比许多其他方法执行得更稳健[138]。
一般来说,查询扩展方法已经在IR应用程序中得到了广泛的研究和采用,但它们并不总是产生一致的改进。特别是基于PRF的扩展方法容易出现查询漂移问题[46]。随后,随着深度学习技术的发展,神经单词嵌入和深度语言模型被用于增强查询扩展方法[58146811]。
4.2 文件扩展
查询扩展的另一种选择是对语料库中的所有文档进行扩展,然后像以前一样对这些丰富的文档进行索引和搜索。直观地说,文档扩展方法补充了反向索引中的每个发布列表,这已被证明对IR任务特别有效[3,65200]。
文档扩展首先是在语音检索社区中提出的[192]。Singhal和Pereira[192]建议使用原始文档作为对集合的查询,并选择了10个最相关的文档。然后,他们通过在文档向量中添加相关文档的线性加权混合来增强原始文档的表示。同样,Efron等人[65]在短文本检索任务中采用了类似的方法。他们将文档作为伪查询提交,并根据结果集的分析进行文档扩展。与基于检索的方法来确定相关文档以进行扩展不同,这是另一种使用文档聚类来确定相似文档的方法,文件扩展对这些结果进行了扩展[114135]。
这两项工作都报告了TREC特设文档检索任务相对于非扩展基线的显著改进。除了使用文档集合本身,使用外部信息来增强文档表示也很有帮助[3190]。例如,Agirre等人[3]提出了一种新的文档扩展方法,该方法基于基于WordNet的系统来查找相关概念和单词,这是第一种使用词汇语义资源进行文档扩展的方法
文档扩展技术在IR研究中不太受欢迎,因为它不太适合快速实验。每当扩展技术发生变化时,都需要对语料库进行重新索引,这是一个代价高昂的过程。相反,对查询表示的操作可以在检索时发生,因此速度要快得多。此外,文件扩展的成功也喜忧参半。Billerbeck和Zobel[23]在同一框架中探索了查询扩展和文档扩展,并得出结论,前者始终更有效。尽管如此,在为文档扩展技术配备了神经模型(如doc2query[164]和docTTTTTquery[162])后,第一阶段检索已经取得了显著的改进(见第5.1节)。
4.3 术语依赖模型
通常,基于术语的方法独立考虑文档中的术语,而忽略术语顺序。结果,由多个连续词表示的概念不能被正确地描述,并且查询和文档之间匹配的连续或有序术语的更强相关性不能很好地反映。术语依赖性模型试图通过将术语依赖性纳入表示函数φ和ψ来解决上述问题。
一种自然的方法是用频繁短语在倒置的索引中扩展字典。例如,Fagan[67]试图将短语纳入VSM,其中短语被视为表示空间中的附加维度。然后,可以将评分函数形式化为术语级评分和短语级评分的组合:
徐等人[218]还研究了用n-gram扩展BM25的方法。他们对BM25内核的定义如下:
将术语依赖性集成到基于术语的方法会增加复杂性,但收益并不像预期的那样显著[118]。Metzler和Croft[148]提出的马尔可夫随机场方法报告了术语依赖性模型相对于基于术语的基线的首次明显改进。在马尔可夫随机场方法中,文档和查询中的每个术语分别表示为一个节点。文档节点连接到每个查询项节点。
此外,基于预定义的依赖关系(例如,bigram、命名实体或距离内的共现),查询项节点之间存在一些边,以表示它们的依赖关系。然后,查询q和文档d的联合概率可以形式化地表示为
4.4 主题模型
另一条改进φ和ψ的路线同时关注单词之间的语义关系——通常建模单词的共现关系,以发现文本中的潜在主题,并通过主题表示匹配查询和文档。这样,表示的每个维度都表示一个主题,而不是一个术语。此外,由于主题表示失去了稀疏性,反向索引变得不切实际