论文笔记|Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension

最新推荐文章于 2024-11-15 12:28:06 发布

期待成功

最新推荐文章于 2024-11-15 12:28:06 发布

阅读量327

点赞数 1

文章标签：深度学习人工智能自然语言处理

本文链接：https://blog.csdn.net/u011150266/article/details/116737147

版权

本文提出了一种结合BERT和图注意力网络的多粒度机器阅读理解框架，解决了NQ数据集中长答案和短答案的关联问题。通过构建文档的层次树结构并使用图编码器，模型在长、短答案预测上均取得SOTA结果。

摘要由CSDN通过智能技术生成

在这里插入图片描述

作者：迪

单位：燕山大学

论文地址

代码地址

论文来源：ACL2020

前言

由于最近的工作想要利用图结构解决问题，因此分享此文的目的是想与大家探讨如何使用图结构表达文章信息。

概述

机器阅读理解是模型在理解文本后，根据相应的问题找出对应的答案。NQ(Natural Questions)是一项新的机器阅读理解任务，它包括长答案（通常是一段话）与短答案（长答案中的实体）。数据集如下图所示。

在这里插入图片描述

尽管现存的模型在该数据集上是有效的，但忽略了两种答案类型之间的联系。本文提出了一种多粒度机器阅读理解框架解决该问题。该模型将文章的理解层次划分为4层，词级、句级、段落级、文档级，利用图注意力网络对文章进行建模。长答案与短答案分别从段落级与词级表示获取，而段落级与词级又可以互相提供信息。实验结果表明，本文的方法优于之前的方法。

主要贡献

提出一种基于BERT与图注意力网络的多粒度机器阅读理解框架
采用一种同时考虑长答案与短答案的策略，对学习两种有依赖关系的答案是有效的
在NQ的榜单上取得了SOTA的成绩

准备工作

数据集

NQ数据集中的每个样本都包含一个问题和一个Wikipedia页面。模型需要预测两种类型的输出:1)长答案，它可以是一个段落、一个表、一个列表项或整个列表。在候选答案中选择长答案，如候选答案与问题都不相关，则应给予“no answer”;2)短答案，可以是“yes”，“no”或长答案中的实体。如果候选答案与问题都不相关，应该给出“no answer”。

预处理

由于NQ数据集中文档的平均长度太长，需将文档划分为文档片段，本文采用的方法是使用划窗将其拆分为具有重叠词的文档片段列表。然后，通过连接[CLS]、tokenized question、[SEP]、文档片段列表的tokens、[SEP]来构成一个训练实例。

模型

一个文档的文档片段输入给模型，经过图编码器后获得文档片段编码信息，将所有文档片段编码信息合并送入答案选择模块，最终得到长答案与短答案。模型结构图如下图所示。

在这里插入图片描述

定义输入与输出

将训练集的样本定义为 $(c, S, l, s, e, t)$ 。假设样本是由第 $i$ 个文档片段 $D_i$ 生成， $Q$ 为问题的表示，即 $Q|+|D_i|+3=512$ ，则 $c=([CLS],Q_1,…,Q_{|Q|},[SEP],D_{i,1},…,D_{i,D_i},[SEP])$ 。 $S$ 表示为文档片段 $D_i$ 的一组长答案的候选项， $l\in{S}$ 是候选集中的目标答案，即长答案， $s,e\in{0,1,…,511}$ 是短答案的开始和结束索引。 $t\in{0,1,2,3,4}$