QA
文章平均质量分 86
北在哪
这个作者很懒,什么都没留下…
展开
-
Python ElasticSearch安装
【代码】Python ElasticSearch安装。原创 2022-11-02 21:33:55 · 1629 阅读 · 0 评论 -
MS MARCO Passage Ranking Leaderboard —— RocketQAv2
本文对 RocketQA 的第二代版本 RocketQAv2 进行解读,原文地址请点击此处。1. 背景介绍 按照retrieve-then-rerank的方式,段落检索中的密集检索器和段落重排序器共同对最终性能做出贡献。尽管这两个模块在推理阶段作为管道工作,但发现联合训练它们是有用的。例如,具有双编码器的检索器可以通过从具有更强大的交叉编码器架构的重排序器中提取知识来改进,同时重排序器也可以通过检索器生成的训练实例进行改进。因此,越来越多的人关注retrier和re-ranker的联合训练原创 2022-04-14 13:42:52 · 875 阅读 · 0 评论 -
MS MARCO Passage Ranking Leaderboard —— BM25 + monoBERT + duoBERT + TCP
本文对MS MARCO Passage Ranking 榜单的 BM25 + monoBERT + duoBERT + TCP 进行解读,原文地址请点击此处。1. 背景介绍 这个模型在MS MARCO上的最好成绩是0.38,和目前的SOTA 0.45有一定差距,但由于作者 Rodrigo Nogueira 等人在此前的一篇论文《Passage Re-ranking with BERT》中首次将BERT用于检索中的重排序任务,是将BERT作为重排序器的鼻祖,因此他的 BM25 + monoB原创 2022-04-13 18:46:17 · 2291 阅读 · 0 评论 -
MS MARCO Passage Ranking Leaderboard —— RocketQA
本文对MS MARCO Passage Ranking 榜单的榜12 (截止至2022/4/12)—— RocketQA 进行解读,原文地址请点击此处。1. 背景介绍 在开放域问答中,密集段落检索已成为检索相关段落以寻找答案的新范式。通常,采用双编码器架构来学习问题和段落的密集表示以进行语义匹配。然而,由于以下三大挑战,仍然难以有效地训练用于密集段落检索的双编码器。 首先,双编码器检索器的训练和推理之间存在差异。在推理过程中,检索器需要从包含数百万候选者的大型集合中识别每个问题的正原创 2022-04-12 21:15:36 · 1810 阅读 · 0 评论 -
ACL 2021 Question Answering
1. Few-Shot Question Answering by Pretraining Span Selection为了消除预训练与抽取式问答任务微调之间的GAP,设计了一种新的预训练方式:Recurring Span Selection。简单来说,就是利用一段文本中重复出现的span,比如下图中的"Roosevelt",选取其中一个"Roosevelt"作为答案,其他的使用[QUESTION]代替,预训练时使用[QUESTION]的输出来寻找答案"Roosevelt"的位置。微调时采用"文本[SE原创 2022-04-11 22:56:51 · 532 阅读 · 0 评论 -
MS MARCO Document Ranking Leaderboard —— UniRetriever
本文对MS MARCO Document Ranking 榜单的榜2 (截止至2022/4/11)—— UniRetriever 进行解读,原文地址请点击此处。原创 2022-04-11 21:21:34 · 1136 阅读 · 0 评论 -
论文笔记:Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index
1. 概要 本文提出Dense-Sparse Phrase Index (DENSPI),一个用于实时开放域 QA 的可索引的查询无关的短语表示模型。短语表示事先离线存储,推理时,输入问题被映射到相同的表示空间,并检索具有最大内积搜索的短语作为答案。短语表示结合了密集向量和稀疏向量。2. 短语和问题嵌入2.1 短语的密集嵌入向量使用表示第个文档中起始位置分别为的短语的密集向量,论文将该向量分解为三个部分:一个对应于短语开始位置的向量,一个对应于结束位置的向量,以及一...原创 2021-11-18 10:56:26 · 2052 阅读 · 0 评论 -
QA中的信息检索技术(IR)整理
从广义上讲,目前的 Retriever 方法可以分为三类,即 Sparse Retriever、Dense Retriever 和 Iterative Retriever,下面将详细介绍。原创 2021-11-19 00:13:38 · 4164 阅读 · 0 评论