
©PaperWeekly 原创 · 作者|蔡杰
学校|北京大学硕士生
研究方向|QA

论文标题:Dense Passage Retrieval for Open-Domain Question Answering
论文来源:ACL 2020
论文链接:https://arxiv.org/abs/2004.04906


引言
Open-domain 的 Question Answering (QA) 一般需要先从大量的文档库中检索出一些和问题相关的文档(retrive),相关的方法有 TF-IDF 和 BM25。这篇文章发现学习 dense 的文档向量去替换 retrive 阶段的传统方法是可行的,并且本文提出的检索系统在 top-20 文章检索准确率上比 Lucene-BM25 系统高出 9%-19%。

介绍
近年来随着深度学习的兴起,目前大部分做 Open-domain 的 QA 使一般沿用两阶段框架:1)retriever 首先选择一小部分段落,其中一些包含问题的答案;2)reader 可以看到 retriever 检索到的上下文并从中识别正确的答案。
目前主流的 retriever 使用传统的信息检索(IR)方法,包括 TF-IDF unigram/bigram matching 或词权重支持 BM25 词权重的工具,如 Lucene 和 Elast

本文提出Dense Passage Retrieval (DPR)技术,用dense encoder替代传统IR方法进行开放域问答系统的检索,通过训练改进了文章检索的准确率,尤其在top-k精度上有显著提升。实验表明,DPR在多个数据集上超越了BM25,并且展示了其在开放域QA的潜力。
最低0.47元/天 解锁文章
404

被折叠的 条评论
为什么被折叠?



