ACL２０２２：C-MORE: Pretraining to Answer Open-Domain Questions byConsulting Millions of References

最新推荐文章于 2024-08-12 18:19:22 发布

gbchen99

最新推荐文章于 2024-08-12 18:19:22 发布

阅读量202

点赞数

分类专栏：论文 QA专栏文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GuibinChen/article/details/125439082

版权

论文同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

研究者提出了一种在没有特定任务注释的情况下，从维基百科引用中自动构建问答上下文三元组的方法。这些三元组覆盖广泛领域，连接问题与相关上下文及支持证据，适用于开放域问答任务。通过预训练，检索器前20位准确度提升2%-10%，整体系统精确匹配提高4%。实验中，他们从Wikipedia和引用中提取300万个语句-引用对，转换成问答三元组，并使用DensePassageRetriever进行预训练。

摘要由CSDN通过智能技术生成

文章链接：https://arxiv.org/abs/2203.08928v2

提出问题：是如何在没有特定任务注释的情况下构建大量高质量的问答上下文三元组。具体来说，三元组应该通过以下方式与下游任务很好地保持一致：（i）覆盖广泛的领域（用于开放领域应用程序），（ii）将问题与其语义相关的上下文与支持证据联系起来（用于训练检索器)，以及 (iii) 在上下文中识别正确答案（用于训练读者）。

解决问题：通过查阅维基百科中引用的数百万个参考文献，自动构建满足所有三个标准的大型语料库。对齐良好的预训练信号对检索器和读者都有很大的好处。

结果：预训练检索器在前 20 位准确度中实现了 2%-10% 的绝对增益。使用我们预训练的阅读器，整个系统的精确匹配提高了 4%

实验：首先从 Wikipedia 及其引用的引用中提取 300 万个语句-引用对。然后，我们通过用疑问短语（例如，“多少”）替换语句中的潜在答案跨度将它们转换为问答上下文三元组。这种伪三元组与人工注释的形式完全相同，并且问题与包含最直接支持证据的上下文相关联，这是开放域 QA 任务非常理想的特征。我们使用广泛采用的开放域 QA 系统 Dense Passage Retriever (DPR) (Karpukhin et al., 2020) 对预训练进行实验。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ACL２０２２：C-MORE: Pretraining to Answer Open-Domain Questions byConsulting Millions of References

文章链接：https://arxiv.org/abs/2203.08928v2提出问题：是如何在没有特定任务注释的情况下构建大量高质量的问答上下文三元组。具体来说，三元组应该通过以下方式与下游任务很好地保持一致：（i）覆盖广泛的领域（用于开放领域应用程序），（ii）将问题与其语义相关的上下文与支持证据联系起来（用于训练检索器)，以及 (iii) 在上下文中识别正确答案（用于训练读者）。解决问题：通过查阅维基百科中引用的数百万个参考文献，自动构建满足所有三个标准的大型语料库。对齐良好的预训练信号对检索器和读者
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。