关注公众号,发现CV技术之美
本篇分享论文『ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval』,三个模型之间的级联知识蒸馏!百度提出自动态蒸馏方法ERNIE-Search,将交叉编码器与双编码器桥接以实现密集段落检索!在开放域 QA 任务上SOTA!
详细信息如下:
论文地址:https://arxiv.org/abs/2205.09153
01
摘要
基于预训练语言模型(PLM)的神经检索模型,如双编码器,在开放域问答(QA)任务中取得了良好的性能。通过整合跨架构的知识蒸馏,它们的有效性可以进一步达到新的水平。然而,现有的大多数研究只是直接应用传统的蒸馏方法。他们没有考虑到教师和学生结构不同的特殊情况。
在本文中,作者提出了一种新的蒸馏方法,该方法显著提高了双编码器的跨架构蒸馏。本文的方法1)引入了一种自动态蒸馏方法,该方法可以有效地将后期交互(即ColBERT)蒸馏到vanilla双编码器,2)结合了级联蒸馏过程,以进一步提高交叉编码器教师的性能。作者进行了大量的实验,以验证本文提出的解决方案优于强baseline,并在开放域QA基准上建立了一个新的最先进水平。
02
Motivation
开放领域问答(QA)旨在通过大量语料库中的段落来回答因素类问题,而这项任务的实际解决方案通常采用先检索后重排(retrieve-then-rerank)的范式。近年来,预训练语言模型(PLM)在许多自然语言处理任务上取得了巨大成功。基于PLM的检索器和重排器还为开放域QA提供了一流的性能,双编码器和交叉编码器是最常见的检索器和重排器。
实证研究证明,更好的检索器可以转化为更好的端到端QA系统,而具有大量参数的双编码器的有效性在很大程度上依赖于大规模带注释的训练数据,而获取这些数据的成本很高。最近,知识提炼(KD)已成为解决这一问题的重要组成部分,其中广泛的研究旨在将更有能力的教师提炼成双编码器学生。这些方法也可以被视为是对教师产生的伪监督的数据补充。
更具体地说,交叉编码器和ColBERT是两种常用的教师模型。交叉编码器允许查询和段落之间的完全token级交叉交互,从而为双编码器学生提供更准确的监督。ColBERT 是双编码器的一种变体,它通过更具表现力的后期交互来推进双编码器的简单度量交互(例如,点积)。
它允许对批量负样本进行蒸馏,这对于训练双编码器至关重要。此外,也有少数研究采用了多教师蒸馏,即同时使用交叉编码器和 ColBERT 作为教师。值得注意的是,所有这些研究都验证了使用这种跨架构蒸馏设置改进双编码器是卓有成效的,其中教师比双编码器学生配备了更具表现力的查询-段落交互。
尽管取得了一定成功,但一个相当被忽视的问题是,跨架构蒸馏提供的知识是否可以完全由双编码器学习。这种担忧来自于交叉编码器中编码的底层语义和双编码器本质上是不同的。目前的跨架构提炼方法可能是次优的,因为它们只是简单地使用交叉编码器的预测(即硬标签或软标签)作为