作者:迪
单位:燕山大学
论文来源:ACL2020
前言
由于最近的工作想要利用图结构解决问题,因此分享此文的目的是想与大家探讨如何使用图结构表达文章信息。
概述
机器阅读理解是模型在理解文本后,根据相应的问题找出对应的答案。NQ(Natural Questions)是一项新的机器阅读理解任务,它包括长答案(通常是一段话)与短答案(长答案中的实体)。数据集如下图所示。
尽管现存的模型在该数据集上是有效的,但忽略了两种答案类型之间的联系。本文提出了一种多粒度机器阅读理解框架解决该问题。该模型将文章的理解层次划分为4层,词级、句级、段落级、文档级,利用图注意力网络对文章进行建模。长答案与短答案分别从段落级与词级表示获取,而段落级与词级又可以互相提供信息。实验结果表明,本文的方法优于之前的方法。
主要贡献
- 提出一种基于BERT与图注意力网络的多粒度机器阅读理解框架
- 采用一种同时考虑长答案与短答案的策略,对学习两种有依赖关系的答案是有效的
- 在NQ的榜单上取得了SOTA的成绩
准备工作
数据集
NQ数据集中的每个样本都包含一个问题和一个Wikipedia页面。模型需要预测两种类型的输出:1)长答案,它可以是一个段落、一个表、一个列表项或整个列表。在候选答案中选择长答案,如候选答案与问题都不相关,则应给予“no answer”;2)短答案,可以是“yes”,“no”或长答案中的实体。如果候选答案与问题都不相关,应该给出“no answer”。
预处理
由于NQ数据集中文档的平均长度太长,需将文档划分为文档片段,本文采用的方法是使用划窗将其拆分为具有重叠词的文档片段列表。然后,通过连接[CLS]、tokenized question、[SEP]、文档片段列表的tokens、[SEP]来构成一个训练实例。
模型
一个文档的文档片段输入给模型,经过图编码器后获得文档片段编码信息,将所有文档片段编码信息合并送入答案选择模块,最终得到长答案与短答案。模型结构图如下图所示。
定义输入与输出
将训练集的样本定义为 ( c , S , l , s , e , t ) (c,S,l,s,e,t) (c,S,l,s,e,t)。假设样本是由第 i i i个文档片段 D i D_i Di生成, Q Q Q为问题的表示,即 ∣ Q ∣ + ∣ D i ∣ + 3 = 512 |Q|+|D_i|+3=512 ∣Q∣+∣Di∣+3=512,则 c = ( [ C L S ] , Q 1 , … , Q ∣ Q ∣ , [ S E P ] , D i , 1 , … , D i , D i , [ S E P ] ) c=([CLS],Q_1,…,Q_{|Q|},[SEP],D_{i,1},…,D_{i,D_i},[SEP]) c=([CLS],Q1,…,Q∣Q∣,[SEP],Di,1,…,Di,Di,[SEP])。 S S S表示为文档片段 D i D_i Di的一组长答案的候选项, l ∈ S l\in{S} l∈S是候选集中的目标答案,即长答案, s , e ∈ 0 , 1 , … , 511 s,e\in{0,1,…,511} s,e∈0,1,…,511是短答案的开始和结束索引。 t ∈ 0 , 1 , 2 , 3 , 4 t\in{0,1,2,3,4} t∈0,1,2,3,</