©PaperWeekly 原创 · 作者 | Maple小七
单位 | 北京邮电大学
研究方向 | 自然语言处理
本文是当前 MS-MARCO Passage Ranking 排行榜 Top1 模型的刷榜策略之一,该模型由阿里达摩院于今年 3 月提交,目前已霸榜 3 个月。
论文题目:
HLATR: Enhance Multi-stage Text Retrieval with Hybrid List Aware Transformer Reranking
论文链接:
https://arxiv.org/abs/2205.10569
代码链接:
https://github.com/Alibaba-NLP/HLATR
Introduction
由于数据规模和计算资源的限制,当前最先进的文本检索系统通常遵循召回-排序范式 (retrieve-then-reranking),在预训练语言模型的背景下,召回和精排模型通常被实例化为下图所示的表征式模型 (representation-focused) 和交互式模型 (interaction-focused)。
虽然在检索系统中,召回和排序模型是紧密关联的,但是目前已发表的工作大多仅致力于优化整个检索系统的单个模块。也就是说,面向召回模型的优化工作大多不会考虑排序模型的性能,反之亦然。虽然最近也出现了一些联合优化召回模型和排序模型的工作,比如百度的 RocketQAv2、ERNIE-Search 和微软的 AR2,但是这些工作的出发点都是利用表达能力更强的排序模型来提升召回模型的性能。
那么,除了采用知识蒸馏、对抗训练等方式来联合优化召回模型和排序模型,还有没有其他有效的方式让召回和排序这两个模块得到充分的交互呢?
直观上来说,虽然召回模型和排序模型的优化目标本质上都是估计 query 和 document 的语义相关性,但是由于训练过程中负样本规模和特征的差异,召回模型更偏向于学习粗粒度相关性,而排序模型更偏向于学习细粒度相关性。这里需要注意的一点是,细粒度相关性和粗粒度相关性并无优劣之分,它们的关系实际上有点像模型鲁棒性和模型泛化性的关系。对于单模型来说,从千万级的文档库中直接找到最相关的文档是一项非常困难的任务,因此我们需要将这个困难的任务分解成两个更简单的子任务:召回、排序,从而实现细粒度相关性建模任务和粗粒度相关性建模任务的解耦。
基于上述分析,我们可以猜想召回和排序的特征实际上是有一定的互补性的,如果我们可