Dense Passage Retrieval for Open-Domain Question Answering

68 篇文章 2 订阅
60 篇文章 1 订阅
本文提出 Dense Passage Retriever (DPR),它使用 BERT 编码器和 dense retrieval 方法,在开放领域问答任务中显著优于 BM25。DPR 通过优化问题和段落的向量表示,实现高精度的检索,提升了 end-to-end QA 系统的性能。
摘要由CSDN通过智能技术生成

Abstract

开放领域的问答依赖于高效的段落检索来选择候选上下文,在实践中一般使用 TF-IDF、BM25 等传统稀疏向量空间模型。 本文说明了实际仅靠在少量问题和段落数据上学到的稠密向量表示就可以实现上述检索过程。在多个开放领域问答数据集上进行评估,本文提出的 dense retriever 在 top-20 passage retrieval accuracy 指标上相比 Lucene-BM25 系统绝对值提高了 9% ~ 19%, 并且帮助 end-to-end QA system 在多个开放领域问答 benchmark 上实现了新的 SOTA.

Introduction

开发领域问答是基于大量问答回答 factoid questions 的一项任务。早期的问答系统都相当复杂并且包含多个模块,随着阅读理解模型的发展,一种极度简化的两阶段框架出现了:1)一个 context retriever 首先选择少量的段落,这些候选段落中可能包含问题的答案;2)一个 machine reader 全面评估这些检索出来的结果并从中提取答案。虽然这种方案看起来相当合理,但在实际中会带来相当大的性能损失,这意味着我们可能需要提升检索效果

基于 TF-IDF 或 BM25 的传统检索方法通过使用倒排索引</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>