双向卷积神经网络_论文阅读 利用异质图神经网络完成抽取式文本摘要

本文探讨了如何利用异质图神经网络改进抽取式文本摘要任务。传统的模型如SummaRuNNer通过双向GRU编码句子,而本文引入异质图模型,基于单词共现关系来建模句子间的复杂联系,解决了RNN和Transformer的局限。模型通过GAT进行信息传递,实验结果显示在CNN和NYT数据集上取得了显著的提升。
摘要由CSDN通过智能技术生成

25c8a14bf1b0997235357b75d7db885b.png

抽取式文本摘要

首先我们先来定义一下抽取式摘要任务。摘要任务需要将原始文档变成简短的通顺的文档,其中抽取式文本摘要直接从原文中选取重要的句子,来形成摘要;与之相对的生成式会生成一些新的单词。

为了易于理解,我们将抽取式摘要任务分为三个子任务:

  1. 单句编码,分别对文档中的每个句子编码,获得句子local的信息
  2. 建模句子之间的关系,获得句子global的信息
  3. 对句子分类,然后重新组合得到摘要。

我们以一个经典的抽取式文本摘要模型SummaRuNNer为例:

b0aede78c7e64556ffcf535497afb8e4.png

在本模型中,

第一层双向GRU对每个句子分别编码,得到句子局部(local)的表示

第二层双向GRU建模句子之间的序列关系,得到句子全局(global)的表示

最后对每个句子分类,并且按照原文的顺序组合。


利用异质图神经网络改善抽取式文本摘要

Heterogeneous Graph Neural Networks for Extractive Document Summarization​www.aclweb.org

本文主要的创新点在于引用了异质图模型来建模句子之间的关系,对应于之前的第二个子任务(句子的global表示)

本文的motivation:

RNN相当于使用一个序列模型去建模句子之间的关系(序列关系太过于简单)

  1. Transformer模型相当于建立一个全连接图去建模句子之间的关系(全连接图有过多的冗余连接)
  2. 之前有部分工作使用ADG(近似语义图),RST(修辞结构图)来建模句子之间的关系(语义分析的技术不成熟,容易出现错误积累问题)

所以本文使用单词的共现关系来建模句子之间的关系

410e595f1b156b26c9e378ec82ab97d0.png

这是模型的一个总体架构图,

  1. 最下面是初始化部分,包括了对句子节点,单词节点和边做了初始化。如图所示,单词节点直接使用wordEmbedding初始化,句子节点使用CNN-BiLSTM编码之后作为句子节点的初始值,边使用tf-idf作为初始值。
  2. 中间部分是建图,图中有两种类型的节点,单词和句子(所以称之为异质图)。建图方式为,句子和句子中出现的单词间连接一条边。相当于两句话通过共现单词间接的连接起来了。
  3. 最后对句子节点分类,得到最后的摘要。

模型训练

acb8393122b5532c42d29a83bb9f7935.png

e3afaf3e700472661298cc04d91dbbc3.png

模型训练过程分为两趟,首先将根据句子的信息更新单词节点,然后利用单词节点的信息更新句子节点。使用GAT图卷积网络进行信息传递,详细公式见论文。

实验

f7fa8f08378d5f81adf304508c4d9719.png

be3f750049429e4f3e7f5f9360ec9969.png

最后是实验部分,在CNN和NYT数据集上均取得较大的提升,上图是在CNN数据集上,下图是在NYT数据集上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值