ACL 2020 | 基于稠密段落检索的开放域问答系统技术

本文提出Dense Passage Retrieval (DPR)技术,用dense encoder替代传统IR方法进行开放域问答系统的检索,通过训练改进了文章检索的准确率,尤其在top-k精度上有显著提升。实验表明,DPR在多个数据集上超越了BM25,并且展示了其在开放域QA的潜力。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|蔡杰

学校|北京大学硕士生

研究方向|QA


论文标题:Dense Passage Retrieval for Open-Domain Question Answering

论文来源:ACL 2020

论文链接:https://arxiv.org/abs/2004.04906

引言

Open-domain 的 Question Answering (QA) 一般需要先从大量的文档库中检索出一些和问题相关的文档(retrive),相关的方法有 TF-IDF 和 BM25。这篇文章发现学习 dense 的文档向量去替换 retrive 阶段的传统方法是可行的,并且本文提出的检索系统在 top-20 文章检索准确率上比 Lucene-BM25 系统高出 9%-19%。

介绍

近年来随着深度学习的兴起,目前大部分做 Open-domain 的 QA 使一般沿用两阶段框架:1)retriever 首先选择一小部分段落,其中一些包含问题的答案;2)reader 可以看到 retriever 检索到的上下文并从中识别正确的答案。

目前主流的 retriever 使用传统的信息检索(IR)方法,包括 TF-IDF unigram/bigram matching 或词权重支持 BM25 词权重的工具,如 Lucene 和 Elast

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>