文章链接:https://arxiv.org/abs/2203.08928v2
提出问题:是如何在没有特定任务注释的情况下构建大量高质量的问答上下文三元组。具体来说,三元组应该通过以下方式与下游任务很好地保持一致:(i)覆盖广泛的领域(用于开放领域应用程序),(ii)将问题与其语义相关的上下文与支持证据联系起来(用于训练检索器),以及 (iii) 在上下文中识别正确答案(用于训练读者)。
解决问题:通过查阅维基百科中引用的数百万个参考文献,自动构建满足所有三个标准的大型语料库。对齐良好的预训练信号对检索器和读者都有很大的好处。
结果:预训练检索器在前 20 位准确度中实现了 2%-10% 的绝对增益。使用我们预训练的阅读器,整个系统的精确匹配提高了 4%
实验:首先从 Wikipedia 及其引用的引用中提取 300 万个语句-引用对。然后,我们通过用疑问短语(例如,“多少”)替换语句中的潜在答案跨度将它们转换为问答上下文三元组。这种伪三元组与人工注释的形式完全相同,并且问题与包含最直接支持证据的上下文相关联,这是开放域 QA 任务非常理想的特征。我们使用广泛采用的开放域 QA 系统 Dense Passage Retriever (DPR) (Karpukhin et al., 2020) 对预训练进行实验。