【论文解读 | ACL2020】HeterSumGraph - 用于文档摘要提取的异构图神经网络

在这里插入图片描述


论文链接: Heterogeneous Graph Neural Networks for Extractive Document Summarization
来源:ACL2020

摘要

跨句关系的学习是文本摘要抽取的关键步骤,目前已有大量的研究方法。一种直观的方法是将它们放入基于图形的神经网络中,该网络具有捕获句子间关系的更复杂的结构。本文提出了一种基于异质图的神经网络用于提取摘要(HETERSUMGRAPH),该网络除了包含句子外,还包含不同粒度层次的语义节点。这些附加节点起到了句与句之间的中介作用,丰富了跨句关系。此外,通过引入文档节点,我们的图结构在从单一文档设置到多文档的自然扩展方面是灵活的。据我们所知,我们是第一个将不同类型的节点引入基于图的神经网络,用于抽取文档摘要,并执行全面的定性分析,以调查其好处的人。代码地址:https://github.com/brxx122/HeterSUMGraph

1 引言

抽取式文档摘要是指从原始文档中提取出相关的句子,并将其重组为摘要。近年来,深度神经网络在这方面的应用取得了巨大的成功。现有的这些模型主要遵循编码器-解码器框架,每个句子将由不同形式的神经成分编码。
为有效从文档中提取值的总结的句子,核心步骤是对句子间关系进行建模。目前大多数模型使用递归神经网络(RNNs)来捕获句子间关系。然而,基于RNNs的模型通常很难捕获语句级的远程依赖关系,特别是在长文档或多文档的情况下。一个更直观的方法是使用图结构来建模句子的关系。然而,要找到一种有效的图形结构来进行摘要是很有挑战性的。各方以各种方式作出了努力。早期的传统工作是利用句子间余弦相似度来建立连通图,比如LexRank(Erkan and Radev, 2004) and TextRank (Mihalcea and Tarau, 2004)。近年来,一些著作解释了构建摘要图时的语篇句子间关系,如带有句子个性化特征的近似语篇图(ADG) (Y asunaga et al., 2017)和修辞结构理论(RST)图(Xu et al., 2019)。然而,它们通常依赖于外部工具,并且需要考虑到错误传播问题。更直接的方法是创建一个句子级的全连接图。在一定程度上,transformer(V aswani et al., 2017)在最近的工作中使用(Zhong et al., 2019a;Liu and Lapata, 2019b)可以归类为这种类型,它学习句子之间的成对互动。尽管他们取得了成功,但是如何为摘要构建一个有效的图结构仍然是一个悬而未决的问题。


在本文中,我们提出了一种用于抽取摘要的异构图网络。我们不再仅仅在句子级节点上构建图,而是在图中引入更多的语义单元作为附加节点,丰富句子之间的关系。这些额外的节点充当连接句子的中介。也就是说,每一个附加节点都被看做是包含它在内的句子间的一种特殊关系。在异构图消息传递的过程中,这些附加节点和句子结点将被迭代更新。
虽然可以使用更高级的特性(例如实体或主题),但为了简单起见,我们在本文中使用单词作为语义单元每个句子都与它所包含的单词相连。所有的句子对和单词对都没有直接的边。所构建的异质词句图具有以下优点:(a)不同的句子可以在考虑显式重叠词信息的基础上相互作用。(b)单词节点还可以从句子中聚合信息并得到更新。与我们的模型不同,现有的模型通常保持单词不变作为嵌入层。©通过多个消息传递过程,可以充分利用不同粒度的信息。(d)我们的异构图网络可扩展为更多类型的节点。例如,我们可以引入文档节点来进行多文档摘要。
本文贡献:

  • 我们是第一个构建异构图网络的文档摘要抽取模型,该模型不仅包含句子节点,还包含其他语义单元。虽然我们在本文中只使用了词节点,但可以合并更高级的语义单元(如实体)。
  • 我们提出的框架在扩展方面非常灵活,可以很容易地从单文档适应到多文档的摘要任务。
  • 我们的模型在没有预先训练过的语言模型的情况下,可以在三个基准数据集上胜过所有现有的竞争对手。消融研究和定性分析显示了我们模型的有效性。

2 相关工作

抽取式文本摘要 随着神经网络技术的发展,文献摘要的提取技术取得了很大的进步。他们大多集中在编码器-解码器框架和使用递归神经网络或Transformer编码器来进行句子级的编码。最近,预先训练的语言模型也被应用于上下文词表示的摘要中。
另一种用于抽取摘要的直观结构是图,它可以更好地利用句子之间的统计信息或语言信息。早期的工作集中在以句子之间的内容相似性构建的文档图上,如LexRank (Erkan and Radev, 2004)和TextRank (Mihalcea and Tarau, 2004)。最近的一些工作旨在通过图神经网络(GNNs)将关系先验整合到编码器中(Yasunaga等人,2017;Xu等,2019)。从方法上讲,这些工作只使用一种类型的节点,将每个文档制定为同构图
NLP的异构图图神经网络及其相关的学习方法(即消息传递(Gilmer et al., 2017)、自我关注(V elickovic et al., 2017))最初是为整个图共享相同类型节点的同质图设计的。然而,真实应用中的图通常带有多种类型的节点(Shi et al., 2016),即异构图。为了模拟这些构造,近期的研究工作做了初步的探索。Tu等人(2019)引入了一种异构图神经网络,将文档、实体和候选文件编码在一起,以实现多跳阅读理解。Linmei et al.(2019)专注于半监督短文本分类,构建了主题-实体异构神经图。
对于摘要,Wei(2012)提出了由主题、词、句节点组成的异构图,并使用马尔可夫链模型进行迭代更新。Wang et al. (2019b)用关键词和句子对其图形TextRank进行了修改,提出了HeteroRank。受基于异构图的神经网络在其他自然语言处理任务上成功的启发,我们将其引入到提取文本摘要中,以学习更好的节点表示

3 方法

一般来说,我们的异构摘要图由两类节点组成:作为中继节点的基本语义节点(如单词、概念等)和作为超级节点的其他篇章单位(如短语、句子、文档等)。每个超级节点与包含在其中的基本节点进行连接,并以该关系的重要性作为其边缘特征。因此,高层语篇节点可以通过基本节点建立彼此之间的关系。
在本文中,为简便起见,我们用词作为基本语义结点。

3.1 文档作为异构图

模型的概述。该框架由三个主要模块组成:图形初始化器、异构图形层和句子选择器

3.2 图的初始化

3.3 异构图层

3.4 句子选择器

3.5 多文档摘要

对于多文档摘要,文档级关系对于更好地理解集群的核心主题和最重要的内容至关重要。然而,大多数现有的神经模型忽略了这种层次结构,并将文档连接到单个平面序列(Liu et al., 2018;Fabbri等,2019)。其他人试图通过基于注意力的全连接图或利用相似度或话语关系来建模这种关系(Liu and Lapata, 2019a)。
我们的框架可以通过为文档添加超级节点(如图3所示),以与句子级别相同的方式建立文档级别的关系,这意味着它可以很容易地从单文档摘要调整为多文档摘要。
如图3所示,单词节点成为句子和文档之间的桥梁。包含相同单词的句子不受文档之间距离的影响而相互连接,而文档则基于内容相似而建立关系。
文档节点可以看作是一种特殊类型的句子节点:文档节点与所包含的单词节点连接,使用TF-IDF值作为边权值。此外,文档节点与句子节点共享相同的更新过程。区别在于初始化,文档节点将其句子节点特征的均值池化作为其初始状态。在句子选择过程中,将句子节点与相应的文档表示连接起来,以获得多文档摘要的最终得分。

4 实验

我们在单文档和多文档摘要任务上评估我们的模型。下面,我们从数据集的描述开始我们的实验。

4.1 数据集

CNN/DailyMail
NYT50
Multi-News

4.2 实验设置及超参数

对于单文档和多文档摘要,我们将词汇表限制为50,000个,并使用300维的GloV e嵌入初始化tokens。在创建单词节点时,我们过滤停止词和标点,并将输入文档截断到最多50个句子的长度。为了去除有噪声的常见单词,我们进一步在整个数据集上删除10%的TF-IDF值较低的词汇。我们初始化局子结点 d s = 128 d_s=128 ds=128,在 G A T e GAT_e GATe中边的特征eij,de = 50。每个GAT层有8个头,并且隐藏层大小dh = 64,而FFN的内部隐藏层大小是512.
在训练过程中,batch_size为32,使用Adam优化器,学习率为5e-4。当验证损失连续三个epoch没有下降时,就提前停止。我们根据验证集的性能选择迭代次数t = 1。3对于解码,我们根据人工编写的摘要的平均长度选择CNN/每日邮报和NYT50数据集的top-3句和Multi-New数据集的top-9句。

4.3 对比模型

Ext-BiLSTM  基于BiLSTM编码器的抽取摘要器通过将一个文档看作一个句子序列来学习句子间关系。为了简化,我们直接取出句子节点的初始化进行分类,其中包括单词级别的CNN编码器和句子级别的2层BiLSTM。该模型也可以看作是对我们的HETERSUMGRAPH在句子节点更新方面的消融研究。
Ext-Transformer
HETERSUMGRAPH

5 结果及分析

5.1 单文档摘要

在CNN/Daily上的实验结果

5.2 多文档摘要

5.3 定性分析

6 结论

在本文中,我们提出了一种异构的基于图的神经网络用于提取摘要。在摘要图中引入更细粒度的语义单元有助于我们的模型在句子之间建立更复杂的关系。将我们的单文档图调整为带有文档节点的多文档图也很方便。此外,我们的模型在CNN/DailyMail上比非基于bert的模型取得了最好的结果,我们将考虑预先训练好的语言模型,以便将来更好地对节点进行编码表示。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值