【论文阅读】Multi-Hop Paragraph Retrieval for Open-Domain Question Answering

最新推荐文章于 2022-04-17 20:27:01 发布

没有胡子的猫

最新推荐文章于 2022-04-17 20:27:01 发布

阅读量243

点赞数

分类专栏：论文阅读文章标签：机器学习 python 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39827677/article/details/118642894

版权

论文阅读专栏收录该内容

33 篇文章 1 订阅

订阅专栏

Multi-Hop Paragraph Retrieval for Open-Domain Question Answering

论文：https://arxiv.org/abs/1906.06606

代码：https://github.com/yairf11/MUPPET

任务

多跳开放域问题回答(QA)任务，需要同时进行文本推理和高效搜索。本文提出了一种检索多个支持段落的方法，这些段落嵌套在一个庞大的，包含回答一个给定问题的必要证据的知识库中。

方法（模型）

本文提出的方法通过形成一个问题和段落的联合向量表示来反复检索支持性段落。检索是通过考虑知识源中段落的上下文句子层面的表示来进行的。

任务定义：

$(K S, Q, A)$

Background knowledge source： $KS = {P_1, P_2, . . . , P_{|KS|}}$

由 $l_i$ 个tokens组成的文本段落： $P_i = (p_1, p_2, . . . , p_{l_i})$

m个tokens组成的段落： $Q = (q_1, q_2, . . . , q_m)$

n个tokens组成的答案： $A = (a_1, a_2, . . . , a_n)$

目标：

使用背景知识源KS找到对问题Q的答案A。

$A = φ (Q, K S)$

方法：

MUPPET (multi-hop paragraph retrieval)

两个组件

paragraph and question encoder

段落编码不依赖于问题。

paragraph reader

使用MIPS(maximum inner product search)算法检索最有可能包含答案的段落，然后将的段落传递给阅读器模块，提取问题最有可能的答案。

支持多跳检索：

对于问题 $Q$ ，编码为 $q$ ，转换成搜索空间向量 $q^s$ ，用来检索（使用MIPS算法）top-k相关段落 ${P^Q_ 1, P^Q _2, . . . , P^Q_ k} ⊂ KS$ ，从检索段落中重构搜索向量， $\{\tilde q^s_ 1, \tilde q^s_ 2, . . . , \tilde q^s_ k\}$ ，再执行一遍检索过程，可检索出下一个top-k相关段落。

模型结构：

Paragraph and Question Encoder

段落P由k个段落组成

$P=(s_1, s_2, . . . , s_k)$

每个段落由 $l$ 个tokens组成

$s_i=(t_{i_1}, t_{i_2}, . . . , t_{i_l})$

$l$ ：句子长度

编码：
$s_1, s_2, . . . , s_k)= f(P)$

$q = f (Q)$

Word Embedding

$t^w$ ：word-level embedding 通过预训练的Word Embedding获得。

$t^c$ ：character-level embedding

token t 有 $l_t$ 个字符 $t_{1}^c, t_{2}^c, . . . , t_{l_t}^c)$
$t^c= max(CNN(t_{1}^c, t_{2}^c, . . . , t_{l_t}^c))$
连接两种嵌入形式：
$t = [t^w; t^c]$

Recurrent Layer

获得word representations之后，通过BiGRU获得 contextualized word representations。
$c_1, c_2, . . . , c_m) = BiGRU(t_1, t_2, . . . , t_m)$

Sentence-wise max-pooling

使用max-pooling获得sentence representations。
$s_i=max(c_{i_1}, c_{i_2}, . . . , c_{i_l})$

Reformulation Component

使用recurrent layers初始化问题Q和段落P的编码。

$(c^q_ 1, c^q_ 2, . . . , c^q_{ n_q})$

$(c^p_ 1, c^p_ 2, . . . , c^p_{ n_p})$

传递给bidirectional attention layer。使用ReLU作为激活函数。最终得到reformulated question representation, $\tilde q$

Reformulation Component图示：

Sentence Encoder 图示：

Paragraph Reader

段落阅读器接输入为问题Q和段落P，并从P中提取最可能的答案跨度。

数据集

HotpotQA
SQuAD-Open

性能水平和结论

HotpotQA数据集：

在HotpotQA distractor setting下，Joint EM和F1评分提升最为显著，分别提升了17.12和13.22。

在HotpotQA full wiki setting下，MUPPET在段落级别编码时，性能要优于句子级编码。

SQuAD-Open数据集：

在SQuAD-Open数据集上，句子级别编码的MUPPET取得了最优的性能，表明本文提出的编码器不仅适用于多跳问题，还可以用于单跳问题。

结论：

本文提出的MUPPET，用于多跳段落检索在单跳和多跳QA数据集上都取得了不错的效果。

没有胡子的猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文阅读】Multi-Hop Paragraph Retrieval for Open-Domain Question Answering

Multi-Hop Paragraph Retrieval for Open-Domain Question Answering论文：https://arxiv.org/abs/1906.06606代码：https://github.com/yairf11/MUPPET任务多跳开放域问题回答(QA)任务，需要同时进行文本推理和高效搜索。本文提出了一种检索多个支持段落的方法，这些段落嵌套在一个庞大的，包含回答一个给定问题的必要证据的知识库中。方法（模型）本文提出的方法通过形成一个问题和段落的联
复制链接

扫一扫

专栏目录

没有胡子的猫 CSDN认证博客专家 CSDN认证企业博客

码龄7年

228: 原创

5万+: 周排名

2万+: 总排名

29万+: 访问

: 等级

4094: 积分

120: 粉丝

171: 获赞

116: 评论

712: 收藏

私信

关注

分类专栏

最新评论

安卓与HC-05蓝牙模块通信，安卓蓝牙串口通信源码，学会智能家居控制的基础
kinto: 大神，求GitHub地址
Linux为树莓派交叉编译OpenCV
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Linux为树莓派交叉编译OpenCV
CSDN-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
网络拓扑配置（内网-外网）
停泊tt1: 那不是写了学生不能上外网嘛
emqx配置https并使用nginx反向代理
阿昱向前冲: 反向代理后，心跳机制好像有问题，回导致重连

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

没有胡子的猫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。