论文笔记|Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension

本文提出了一种结合BERT和图注意力网络的多粒度机器阅读理解框架,解决了NQ数据集中长答案和短答案的关联问题。通过构建文档的层次树结构并使用图编码器,模型在长、短答案预测上均取得SOTA结果。
摘要由CSDN通过智能技术生成

在这里插入图片描述


作者:迪

单位:燕山大学


论文地址

代码地址

论文来源:ACL2020


前言

  由于最近的工作想要利用图结构解决问题,因此分享此文的目的是想与大家探讨如何使用图结构表达文章信息。

概述

  机器阅读理解是模型在理解文本后,根据相应的问题找出对应的答案。NQ(Natural Questions)是一项新的机器阅读理解任务,它包括长答案(通常是一段话)与短答案(长答案中的实体)。数据集如下图所示。

在这里插入图片描述

  尽管现存的模型在该数据集上是有效的,但忽略了两种答案类型之间的联系。本文提出了一种多粒度机器阅读理解框架解决该问题。该模型将文章的理解层次划分为4层,词级、句级、段落级、文档级,利用图注意力网络对文章进行建模。长答案与短答案分别从段落级与词级表示获取,而段落级与词级又可以互相提供信息。实验结果表明,本文的方法优于之前的方法。

主要贡献

  1. 提出一种基于BERT与图注意力网络的多粒度机器阅读理解框架
  2. 采用一种同时考虑长答案与短答案的策略,对学习两种有依赖关系的答案是有效的
  3. 在NQ的榜单上取得了SOTA的成绩

准备工作

数据集

  NQ数据集中的每个样本都包含一个问题和一个Wikipedia页面。模型需要预测两种类型的输出:1)长答案,它可以是一个段落、一个表、一个列表项或整个列表。在候选答案中选择长答案,如候选答案与问题都不相关,则应给予“no answer”;2)短答案,可以是“yes”,“no”或长答案中的实体。如果候选答案与问题都不相关,应该给出“no answer”。

预处理

  由于NQ数据集中文档的平均长度太长,需将文档划分为文档片段,本文采用的方法是使用划窗将其拆分为具有重叠词的文档片段列表。然后,通过连接[CLS]、tokenized question、[SEP]、文档片段列表的tokens、[SEP]来构成一个训练实例。

模型

  一个文档的文档片段输入给模型,经过图编码器后获得文档片段编码信息,将所有文档片段编码信息合并送入答案选择模块,最终得到长答案与短答案。模型结构图如下图所示。

在这里插入图片描述

定义输入与输出

  将训练集的样本定义为 ( c , S , l , s , e , t ) (c,S,l,s,e,t) (c,S,l,s,e,t)。假设样本是由第 i i i个文档片段 D i D_i Di生成, Q Q Q为问题的表示,即 ∣ Q ∣ + ∣ D i ∣ + 3 = 512 |Q|+|D_i|+3=512 Q+Di+3=512,则 c = ( [ C L S ] , Q 1 , … , Q ∣ Q ∣ , [ S E P ] , D i , 1 , … , D i , D i , [ S E P ] ) c=([CLS],Q_1,…,Q_{|Q|},[SEP],D_{i,1},…,D_{i,D_i},[SEP]) c=([CLS],Q1,,QQ,[SEP],Di,1,,Di,Di,[SEP]) S S S表示为文档片段 D i D_i Di的一组长答案的候选项, l ∈ S l\in{S} lS是候选集中的目标答案,即长答案, s , e ∈ 0 , 1 , … , 511 s,e\in{0,1,…,511} s,e0,1,,511是短答案的开始和结束索引。 t ∈ 0 , 1 , 2 , 3 , 4 t\in{0,1,2,3,4} t0,1,2,3,</

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值