图的邻接矩阵_EMNLP 2020 | 多步推理问答是否真的需要图结构?

c779571a5f6fdddb518a04132c245b7b.png

本期推送介绍了HFL在自然语言处理顶级国际会议EMNLP 2020发表的工作,探索了多步推理问答是否需要图结构的问题。

•••

论文名称:Is Graph Structure Necessary for Multi-hop Question Answering? 论文作者:邵楠,崔一鸣,刘挺,王士进,胡国平 原创作者:邵楠 论文链接: https://www.aclweb.org/anthology/2020.emnlp-main.583.pdf

简介

近年来,将文本建模为图结构并使用图网络进行处理在许多NLP领域都掀起了一股潮流。本文中,我们探索了图结构对于多步推理问答任务是否是必要的。我们的分析主要基于HotpotQA数据集。我们构建了一个强大的基线模型并证明了,通过正确地使用预训练模型,图结构对于多步推理问答是不必要的。我们指出图结构和对应的邻接矩阵都可以被看作是一种任务相关的先验知识,并且图注意力可以被看作是自注意力的一种特例。实验和可视化分析都表明图注意力或整个图结构都可以被自注意力或Transformer替代。

背景

与单步问题相比,多步推理型问答由于需要阅读多个段落才能推导出答案受到了越来越多的关注。[1][2][3]为了解决这类问题,大部分现有的工作都将分布在不同段落间的实体抽取并建模为图结构。[4]和[5]设计了一种类似有向图的循环层来建模实体间的关系,[6]首先提出了使用GCN[7]来处理实体图。[8]提出了动态实体图来解决抽取式的多步推理问答任务。[9]提出引入文档节点和问题节点将实体图拓展为异构图。

这些现有的工作都声称其新颖的图结构是解决多步推理问答的关键模块。然而,我们在实验中发现移除图结构并不会影响模型的最终效果。因此本文目的是回答这样的一个问题:图结构对于解决多步推理问答起了多大的贡献?

基线模型

本文的实验都基于HotpotQA数据集[3]完成,该数据集是一个广泛使用的多步推理问答数据集。该数据包含Distractor和Fullwiki两种设定,Distractor设定中每个问题对应2个正确段落和8个干扰段落。Fullwiki设定则要求模型从整个维基百科中检出正确的段落。本文的实验使用Distractor设定。

我们复现了在该领域之前的SOTA模型DFGN(Dynamically Fused Graph Network) [8]并修改了预训练的使用方式。这里使用一个检索模型检出候选段落中的相关段落并输入一个基于图的问答模型,其中图中的所有节点都是由一个额外的NER模型所识别得到的实体构成。这里简要介绍该模型的主要结构,整个系统的示意图如图1所示。

3.1 模型描述

我们使用一个RoBERTa large[10]模型来计算每个问题与候选段落之间的相关性。我们过滤掉所有得分低于0.1的段落。并且,每个问题对应的最大检出段落为3。所有的检出段落都将其拼接并记作上下文。

在编码层,我们将问题和上下文拼接并输入另一个RoBERTa large模型,所得到的输出被输入到一个双向注意力层[11]来得到编码层的输出。在图融合层(Graph Fusion Block),给定第步的上下文表示,其中所有token的向量表示都会通过mean-max池化层来得到实体图中的所有节点的表示,其中为实体的数量。在此之后,一个图注意力层[12]被用于更新实体图中每个节点的表示。

其中为节点的相邻节点的集合。此外,图融合层在每一步图网络的输出后会将token的序列表示与实体图节点的表示相融合(原文称为Doc2Graph和Graph2Doc),并且还包括query更新机制、弱监督训练任务等,有兴趣的读者可阅读论文[8]来了解这些细节。

在预测层,这里使用了一种“瀑布式”的结构来预测HotpotQA任务所要求的答案文本和线索句子。

此外,为了寻找文本中的实体并构建实体图,我们使用一个基于BERT的NER模型并在CoNLL’03数据集[13]上进行微调。在抽取得到文本中所有的实体和日期后,实体图的连接规则由以下两条规则确定:1)上下文中不同位置出现的相同实体之间有连接。2)同一个句子中出现的不同实体之间有连接。

2bfcd225d7e5bc68ab22366cad698e91.png

图1 基线模型的架构图

3.2 基线模型效果

在表1中我们给出了该基线模型在HotpotQA隐藏的测试集上与其他模型的对比。可看到我们的基线模型取得了state-of-the-art的结果。为了分析图结构对于整个模型起了多大的贡献,我们移除了整个图融合模块,使预训练的输出直接输入给预测层。由于我们的基线模型与DFGN的主要区别在于我们的模型以Fine-tuning的方式使用了预训练模型,因此我们在不同预训练模型设定下都进行了该实验。

实验的结果展示在了表2中。在预训练模型以fine-tuning的方式使用时,包含和不包含图结构的模型都取得了相似的结果。而当我们固定预训练模型的参数后,EM和F1显著下降了9%和10%。如果此时进一步移除图结构,EM和F1会进一步下降4%左右。换句话说,只有当预训练模型以Feature-based的方式使用时,图结构才会起到比较明显的作用。而当预训练模型以Fine-tuning的方式使用时(这是较为通常的方式),图结构并没有对结果起到贡献,换句话说,图结构可能不是解决多步推理问题所必要的结构。

表1 基线模型在HotpotQA测试集的结果

5900dc5ec57acf1a0ae30c51345d8668.png

表2 不同设定下图结构的消融实验

964504f1404c4871567aa7599d62c20c.png

理解图网络

从基线模型的结果我们猜测,自注意力或者Transformer可能更加擅长处理多步推理问答任务,本文将设计实验验证这一猜想。在此之前,我们将先探讨图结构在解决多步推理问答中所起的作用。

7add51cff71020a6149d32242d3287a5.png

图2 原始文本中的实体被建模为实体图并使用图注意力网络进行处理,当实体图为全连接时,图注意力层将退化为传统的自注意力层

如图2所示,为了回答一个需要多步推理的问题,首先需要从原始文本中找到与问题中出现的相同实体,然后以该实体作为起点构建从该实体到其他共现或相同实体的推理链。如图所示,之前的工作通常从各个段落中抽取实体并将其构建为实体图结构。然后,图的邻接矩阵,也就是各个节点之间的连接关系通过一些手工制定的规则确定,一般为实体间的共现关系。从这个角度看,实体图结构和邻接矩阵都可以被看作是一种任务相关的先验知识,其中将实体建模为图中的节点限制模型只能够从一个实体推理到另一个实体,而邻接矩阵帮助模型忽略没有共现关系的实体。然而,我们猜测即使没有这些先验知识,模型也可能学到这种实体到实体的注意力模式。

此外,考察图注意力的公式,不难发现图注意力与自注意力有着非常相似的形式。在前向计算中,每个节点都与相邻节点计算注意力并更新自身表示。如图所示,当图中所有节点都互相连接时,图注意力将退化为传统的自注意力层。因此图注意力也可以被看作是自注意力的一种特例。

实验

根据上面的讨论,本文设计了实验来验证我们的猜想。我们使用第3节所介绍的基线模型,其中预训练模型使用Feature-based的方法。几种不同的神经网络模块被设置在编码层和预测层之间。

5.1 包含图结构的模型

对于包含图结构的模型,我们希望验证作为先验知识的邻接矩阵是否必要。因此,我们对比了图注意力和自注意力的效果差异。为公平起见,自注意力使用了与图注意力相同的形式,唯一的不同在于自注意力将所有的节点视作全连接的。此外,我们还评估了不同邻接矩阵密度对于结果的影响。这里将一个0-1矩阵的密度定义为其中‘1’的比例,然后将所有开发集中的样本按照邻接矩阵的密度进行排序并根据不同的分位点划分。

5.2 不包含图的模型

为了验证图结构本身是否有必要,这里直接将两层的图结构替换为传统的Transformer层。其中编码层得到的上下文token表示将直接输入Transformer。

5.3 结果

实验结果见表3,与基线模型相比,带有图融合层的模型有非常显著的优势。在给基线模型添加了图注意力层后,基线模型获得了较为明显的提升。然而,相比于自注意力,图注意力层并没有显示出明显的优势。此外,从表中也可以看出,Transformer同样可以表现出很好的推理能力,仅仅两层堆叠的Transformer层便可以得到与复杂的图融合层相当的结果。

表3 设置不同模块条件下EM和F1性能的比较

b73570af2813d1793775c19d7419d53f.png

考虑到邻接矩阵能够帮助模型不去关注无关的实体,直觉上图注意力网络应当在邻接矩阵较为稀疏的样本上更具有优势,因此这里进一步研究了这两种网络在不同邻接矩阵密度的样本上效果是否有差异。这里将不同样本按其邻接矩阵密度进行排序并按不同分位点进行划分,表4显示了不同分位点下邻接矩阵的密度,可以看到,在多步推理问答任务中构建的图结构要相对稠密得多。实验结果被绘制在图3中。与前面猜测的结果不同,图注意力网络相比自注意力在不同邻接矩阵密度的样本上都没有表现出优势,证明自注意力确实能够自行学会忽略不相干实体。此外,密度越大的样本EM/F1得分越高,这可能是因为这些样本长度普遍更短,因此也更加容易定位答案的位置。

表4 位于不同分位点样本的邻接矩阵密度

3f75528bf5f594f48987591d3de39ee6.png

14ed9c1540f2b39a1b162369769ccbf6.png

图3 不同邻接矩阵密度下图注意力和自注意力的效果对比

5.4 预训练模型中基于实体的注意力模式

受到[14]的启发,我们使用了一种近似的方法来定位预训练模型中包含基于实体的注意力的头。我们使用一个NER模型来识别每个token是否属于一个实体序列。然后,对于每个注意力头,我们将所有属于实体的token的注意力权重与不属于实体的token的注意力权重分别求和并计算两者的差值,这个差值即为该样本在这个注意力头的得分。我们计算所有样本在各个注意力头上的平均得分,得分最高的头即被认为是包含基于实体注意力的头。

通过对找到的注意力头进行分析,我们找到了4种常见的基于实体的注意力模式并将其可视化展示在图4中。对于样例1-3,我们将所有token对于主语实体的权重可视化,对于样例4,我们将每个token对于句子最后一个token的权重进行了可视化。从可视化的结果表明预训练模型实际上非常善于捕捉实体与其他句子成分之间的联系。

bd6c617aad87a599666f58523314e32c.png

图4 预训练模型中不同注意力模式的可视化结果

  • Entity2Entity:我们发现实体-实体的注意力模式在预训练模型中非常的常见。在这个样例中,‘American Physicist’和‘Czech’以非常高的权重注意到‘Emil Wolf’,这种注意力模式其实就是图注意力层所起的功能。

  • Attribute2Entity:在这个例子中,‘filmmaker’、‘film critic’和‘teacher’等有较高的权重,意味着主语‘Thom Andersen’的职业。注意这些词并不属于实体,因此必定会被图结构忽略。

  • Coreference2Entity:我们还发现预训练模型不容易被共指关系所困扰。在样例3中,第二个句子中的实体‘Sir Lanka’注意到第一个句子中的‘Julian Bolling’,这意味着预训练模型理解第二个句子中的‘He’所指代的是位于另一个句子中的‘Julian Bolling’。

  • Entity2Sentence:我们还发现许多实体会注意到句子的最后一个token。在预测层,我们使用每个句子的第一个和最后一个token来作为句子的表示并预测该句子是否是一个线索句子。因此,我们猜想这是一种实体注意到整个句子的注意力模式。

从上面的例子可以看出,图注意力显然不能覆盖后面三种注意力模式。因此我们得出结论预训练模型中的自注意力相对更加的通用和灵活。

结论

本文探索了图结构对于多步推理问答是否必要以及它所起的作用。我们通过实验证明了当预训练模型被正确地使用时,图结构不是必要的。此外,我们指出邻接矩阵和图结构都可以被看作是一种任务相关的先验知识。通过实验和可视化的分析,我们证明图注意力和图结构可以被自注意力或Transformer替代。对于之后的工作尝试将图网络引入NLP领域的工作,我们建议这些工作能够说明其必要性和优越性。

参考文献

[1] Johannes Welbl, Pontus Stenetorp, and Sebastian Riedel. 2018. Constructing datasets for multi-hop reading comprehension across documents. TACL. [2] Alon Talmor and Jonathan Berant. 2018. The web as a knowledge-base for answering complex questions. In NAACL 2018, Volume 1 (Long Papers). [3] Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William Cohen, Ruslan Salakhutdinov, and Christopher D. Manning. 2018. HotpotQA: A dataset for diverse, explainable multi-hop question answering. In EMNLP 2018. [4] Bhuwan Dhingra, Qiao Jin, Zhilin Yang, William Cohen, and Ruslan Salakhutdinov. 2018. Neural models for reasoning over multiple mentions using coreference. In NAACL 2018. [5] Linfeng Song, Zhiguo Wang, Mo Yu, Yue Zhang, Radu Florian, and Daniel Gildea. 2018. Exploring graph-structured passage representation for multihop reading comprehension with graph neural networks. arXiv preprint arXiv:1809.02040. [6] Nicola De Cao, Wilker Aziz, and Ivan Titov. 2019. Question answering by reasoning across documents with graph convolutional networks. In NAACL 2019. [7] Thomas N. Kipf and Max Welling. 2017. Semisupervised classification with graph convolutional networks. In International Conference on Learning Representations (ICLR). [8] Lin Qiu, Yunxuan Xiao, Yanru Qu, Hao Zhou, Lei Li, Weinan Zhang, and Yong Yu. 2019. Dynamically fused graph network for multi-hop reasoning. In ACL 2019. [9] Ming Tu, Guangtao Wang, Jing Huang, Yun Tang, Xiaodong He, and Bowen Zhou. 2019b. Multi-hop reading comprehension across multiple documents by reasoning over heterogeneous graphs. In ACL 2019. [10] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692. [11] Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, and Hannaneh Hajishirzi. 2016. Bidirectional attention flow for machine comprehension. In International Conference on Learning Representations (ICLR). [12] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008. [13] Erik F. Tjong Kim Sang and Fien De Meulder. 2003. Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. In HLT-NAACL 2003. [14] Olga Kovaleva, Alexey Romanov, Anna Rogers, and Anna Rumshisky. 2019. Revealing the dark secrets of BERT. In EMNLP 2019.

原文:邵楠

编辑:HFL编辑部

020f727a5c68edc01d813aede7a979c4.png

ccaa4587f73835bd9ba1ca2ecc7a5597.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值