Abstract
开放领域的问答依赖于高效的段落检索来选择候选上下文,在实践中一般使用 TF-IDF、BM25 等传统稀疏向量空间模型。 本文说明了实际仅靠在少量问题和段落数据上学到的稠密向量表示就可以实现上述检索过程。在多个开放领域问答数据集上进行评估,本文提出的 dense retriever 在 top-20 passage retrieval accuracy 指标上相比 Lucene-BM25 系统绝对值提高了 9% ~ 19%, 并且帮助 end-to-end QA system 在多个开放领域问答 benchmark 上实现了新的 SOTA.
Introduction
开发领域问答是基于大量问答回答 factoid questions 的一项任务。早期的问答系统都相当复杂并且包含多个模块,随着阅读理解模型的发展,一种极度简化的两阶段框架出现了:1)一个 context retriever 首先选择少量的段落,这些候选段落中可能包含问题的答案;2)一个 machine reader 全面评估这些检索出来的结果并从中提取答案。虽然这种方案看起来相当合理,但在实际中会带来相当大的性能损失,这意味着我们可能需要提升检索效果。
基于 TF-IDF 或 BM25 的传统检索方法通过使用倒排索引</

本文提出 Dense Passage Retriever (DPR),它使用 BERT 编码器和 dense retrieval 方法,在开放领域问答任务中显著优于 BM25。DPR 通过优化问题和段落的向量表示,实现高精度的检索,提升了 end-to-end QA 系统的性能。
订阅专栏 解锁全文
1564

被折叠的 条评论
为什么被折叠?



