Improving Passage Retrieval with Zero-Shot Question Generation

2022 EMNLP

摘要

我们提出了一种简单有效的重新排序方法来提高开放式问答中的段落检索。
重新排序器使用零样本问题生成模型对检索到的段落进行重新排序,该模型使用预训练的语言模型来计算以检索到的段落为条件的输入问题的概率。
这种方法可以应用于任何检索方法(例如基于神经或关键字)之上,不需要任何特定领域的训练(因此有望更好地推广到数据分布变化),并在查询和段落之间提供丰富的交叉注意力(即它必须解释问题中的每个标记)。
当在许多开放域检索数据集上进行评估时,我们的重新排序器在 top-20 段落检索准确度方面将强大的无监督检索模型提高了 6%-18% 的绝对和强大的监督模型提高了 12%。
我们还通过简单地将新的重新排序器添加到没有进一步更改的现有模型中,在完整的开放域问答上获得了新的最先进的结果。 1

介绍

Text retrieval 文本检索
文本检索是许多 NLP 问题中的核心子任务,例如,必须检索文档的开放域问答,然后读取以回答输入查询。查询和文档通常嵌入到共享表示空间中以实现有效的搜索,然后使用特定于任务的模型来执行更深、令牌级的文档分析(例如,选择答案跨度的文档阅读器)。
我们表明,通过在此类模型的检索阶段添加零样本重新排序器可以显着提高性能,而无需特定于任务的数据或调整的深度令牌级分析。

Unsupervised Dense Information Retrieval with Contrastive Learning 2022

我们专注于开放域问答,并使用预训练的语言模型引入了一种基于零样本问题生成的重新排序器。
我们的重新排序器,我们称之为无监督段落重新排序器 (UPR),通过计算以检索到的段落为条件的输入问题的可能性来对检索到的段落进行重新排序。
计算问题是从文本中生成的可能性
这种简单的方法可以在查询和段落之间实现与任务无关的交叉注意,这些交叉注意可以应用于任何检索方法(例如基于神经或关键字)之上,并且在实践中非常有效(图 1)。

部分,UPR 的灵感来自传统的基于计数的语言模型的查询评分模型(Zhai 和 Lafferty,2001)。
然而,UPR 不是从每篇文章中估计语言模型,而是使用预训练的语言模型 (PLM)。最近对重新排序器的工作已经在问题-段落对上微调 PLM 以生成相关性标签(Nogueira 等人,2020),有时联合生成问题和相关性标签(Nogueira dos Santos 等人,2020;Ju 等人,2021)。相比之下,UPR使用现成的PLM,

2 方法

在这里插入图片描述
图 2 概述了我们的开放域检索方法,它引入了一种新的无监督重新排序器(第 2.2 节),可以应用于任何现有的文本检索器(第 2.1 节)。

2.1 retriever

令 D = {d1,., dM } 是证据文档的集合。给定一个问题 (q),检索器选择相关段落的子集 Z ⊂ D,其中一个或多个将理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值