©PaperWeekly 原创 · 作者|蔡杰
学校|北京大学硕士生
研究方向|QA
论文标题:Dense Passage Retrieval for Open-Domain Question Answering
论文来源:ACL 2020
论文链接:https://arxiv.org/abs/2004.04906
引言
Open-domain 的 Question Answering (QA) 一般需要先从大量的文档库中检索出一些和问题相关的文档(retrive),相关的方法有 TF-IDF 和 BM25。这篇文章发现学习 dense 的文档向量去替换 retrive 阶段的传统方法是可行的,并且本文提出的检索系统在 top-20 文章检索准确率上比 Lucene-BM25 系统高出 9%-19%。
介绍
近年来随着深度学习的兴起,目前大部分做 Open-domain 的 QA 使一般沿用两阶段框架:1)retriever 首先选择一小部分段落,其中一些包含问题的答案;2)reader 可以看到 retriever 检索到的上下文并从中识别正确的答案。
目前主流的