抽取式文本摘要
首先我们先来定义一下抽取式摘要任务。摘要任务需要将原始文档变成简短的通顺的文档,其中抽取式文本摘要直接从原文中选取重要的句子,来形成摘要;与之相对的生成式会生成一些新的单词。
为了易于理解,我们将抽取式摘要任务分为三个子任务:
- 单句编码,分别对文档中的每个句子编码,获得句子local的信息
- 建模句子之间的关系,获得句子global的信息
- 对句子分类,然后重新组合得到摘要。
我们以一个经典的抽取式文本摘要模型SummaRuNNer为例:
在本模型中,
第一层双向GRU对每个句子分别编码,得到句子局部(local)的表示
第二层双向GRU建模句子之间的序列关系,得到句子全局(global)的表示
最后对每个句子分类,并且按照原文的顺序组合。
利用异质图神经网络改善抽取式文本摘要
Heterogeneous Graph Neural Networks for Extractive Document Summarizationwww.aclweb.org本文主要的创新点在于引用了异质图模型来建模句子之间的关系,对应于之前的第二个子任务(句子的global表示)
本文的motivation:
RNN相当于使用一个序列模型去建模句子之间的关系(序列关系太过于简单)
- Transformer模型相当于建立一个全连接图去建模句子之间的关系(全连接图有过多的冗余连接)
- 之前有部分工作使用ADG(近似语义图),RST(修辞结构图)来建模句子之间的关系(语义分析的技术不成熟,容易出现错误积累问题)
所以本文使用单词的共现关系来建模句子之间的关系
这是模型的一个总体架构图,
- 最下面是初始化部分,包括了对句子节点,单词节点和边做了初始化。如图所示,单词节点直接使用wordEmbedding初始化,句子节点使用CNN-BiLSTM编码之后作为句子节点的初始值,边使用tf-idf作为初始值。
- 中间部分是建图,图中有两种类型的节点,单词和句子(所以称之为异质图)。建图方式为,句子和句子中出现的单词间连接一条边。相当于两句话通过共现单词间接的连接起来了。
- 最后对句子节点分类,得到最后的摘要。
模型训练
模型训练过程分为两趟,首先将根据句子的信息更新单词节点,然后利用单词节点的信息更新句子节点。使用GAT图卷积网络进行信息传递,详细公式见论文。
实验
最后是实验部分,在CNN和NYT数据集上均取得较大的提升,上图是在CNN数据集上,下图是在NYT数据集上。