ACL2022:C-MORE: Pretraining to Answer Open-Domain Questions byConsulting Millions of References

研究者提出了一种在没有特定任务注释的情况下,从维基百科引用中自动构建问答上下文三元组的方法。这些三元组覆盖广泛领域,连接问题与相关上下文及支持证据,适用于开放域问答任务。通过预训练,检索器前20位准确度提升2%-10%,整体系统精确匹配提高4%。实验中,他们从Wikipedia和引用中提取300万个语句-引用对,转换成问答三元组,并使用DensePassageRetriever进行预训练。
摘要由CSDN通过智能技术生成

文章链接:https://arxiv.org/abs/2203.08928v2

提出问题:是如何在没有特定任务注释的情况下构建大量高质量的问答上下文三元组。具体来说,三元组应该通过以下方式与下游任务很好地保持一致:(i)覆盖广泛的领域(用于开放领域应用程序),(ii)将问题与其语义相关的上下文与支持证据联系起来(用于训练检索器),以及 (iii) 在上下文中识别正确答案(用于训练读者)。

解决问题:通过查阅维基百科中引用的数百万个参考文献,自动构建满足所有三个标准的大型语料库。对齐良好的预训练信号对检索器和读者都有很大的好处。

结果:预训练检索器在前 20 位准确度中实现了 2%-10% 的绝对增益。使用我们预训练的阅读器,整个系统的精确匹配提高了 4%

实验:首先从 Wikipedia 及其引用的引用中提取 300 万个语句-引用对。然后,我们通过用疑问短语(例如,“多少”)替换语句中的潜在答案跨度将它们转换为问答上下文三元组。这种伪三元组与人工注释的形式完全相同,并且问题与包含最直接支持证据的上下文相关联,这是开放域 QA 任务非常理想的特征。我们使用广泛采用的开放域 QA 系统 Dense Passage Retriever (DPR) (Karpukhin et al., 2020) 对预训练进行实验。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值