NAACL 2019 | 利用图变换网络实现从知识图到文本的生成

文章《Text Generation from Knowledge Graphs with Graph Transformers Normalization》提出一种基于知识图和图变换网络的方法,实现了文献摘要的自动生成。利用知识图结构,描述想要表达的多句文本的结构信息。通过对文章标题以及知识图的编解码,自动生成与文章标题语义相符的文章摘要部分。


论文地址:
https://arxiv.org/abs/1904.02342
代码地址:
https://github.com/rikdz/GraphWriter

引言

随着计算能力的提升,生成符合语法规范的句子已经可以实现。但想要生成多个与主题相关,并且描述一致的文献语句仍然较为困难。因为它需要符合文献的语言结构特点,并按照科技文献的方式描述并解释某一问题。
本文提出了一种GraphWriter模型,通过利用所要表达内容的图结构和文章标题的编码解码过程,实现文章摘要的撰写。该方法在定量的以及人为评测的指标上,相比以前方法有了较大提升。

数据集

为训练并验证GraphWriter模型的效果,作者建立了Abstract GENeration DAtaset (AGENDA)数据集。该数据集包含来自12个AI顶会的4万多篇论文。每个样本保留了文章的题目和摘要信息,并利用SciIE系统提取了摘要的知识图信息。该数据集被分为38720个训练样本、1000个验证样本和1000个测试样本。

模型

GraphWriter模型包含编码结构和解码结构,如图1所示。模型对文章标题和提取的知识图进行编码,解码时每一时刻输出从知识图和标题复制还是从字典生成的概率,以及对应的预测概率分布。利用最大似然为损失函数监督网络的端到端训练。
图1 GraphWriter模型结构

编码器

编码器部分包含图预处理过程、文本编码网络和图变换网络三部分内容。

图像预处理

由于图变换网络的输入为无标签连通图,而由SciIE系统提取的图为有标签的非连通图,所以要对数据集中图结构进行预处理。处理过程如图2所示。
图2 图预处理过程
处理过程先把原图中的所有实体节点和关系都作为新图的节点,原图中的每个关系生成新图的前向和后向两个节点,并把实体节点和前向后向关系节点连通。为保证生成图为连通图,构造一个全局节点,与所有实体连通。全局节点的特征后续会作为rnn结构的初始隐状态。

文本编码网络

文本编码网络作用为,对于标题以及图中的关系和实体的文本内容进行编码。由于科技文献中的实体与关系词多为多字的词组,所以利用双向rnn结构进行编码,编码结果表示为V。对于标题,同样利用双向rnn进行编码,输出结果表示为T。

图变换网络

图变换网络是transformer网络在图数据结构上的一种应用,计算方式与transformer网络相似,网络结构如图3所示。
图3 图变换网络结构图
通过计算节点与相邻节点的相似性,得到加权权重$ {\alpha_{ij}}^{n}$ 。对相邻节点特征的加权求和得到Graph Attention的输出结果。图变换网络同样利用了多头机制,将所有attention结果的输出串联后做映射,并与输入相加得到attention模块输出 v ^ i \hat{v}_{i} v^i


其中 N i N_{i} Ni为节点j的相邻节点,||表示特征的串联。
Feedforward网络计算方式如下。

其中FFN为一个双层感知机网络。
图变换网络通过堆叠多个上图Block模块得到最终编码结果 V L = [ v i L ] V^L=[{v_{i}}^{L}] VL=[viL],其中包含所有实体节点、关系节点和全局节点的编码。

解码器

解码器通过对输入图特征和标题编码特征做预测,输出该时间步预测结果取自字典词语或是标题及图实体词语的概率p,以及它们各自预测结果的概率分布 α c o p y \alpha ^{copy} αcopy α v o c a b \alpha ^{vocab} αvocab
先通过rnn网络输出时间步t时,图和标题的上下文向量 c g c_{g} cg c s c_{s} cs

计算方式与编码器中attention计算方式相同,并同样使用了多头机制。其中 v j L {v_{j}}^{L} vjL为第j个图节点的编码结果, h t h_{t} ht为rnn的t时刻隐状态。
同样,将图节点特征换为标题的词向量特征则得到 c s c_{s} cs。最终的上下文向量为

选择概率p为

输出结果的概率分布为
[外链图片转存失败(img-THd2jxXC-1563784251139)(http://weixin.fatherai.com/FmZ-DZ4npPkTiSnNrFg17B5k_61D)]
其中 α j c o p y = a ( [ h t ∣ ∣ c t ] , e j ) , e j ∈ V ∣ ∣ T {\alpha_{j}}^{copy}=a([h_{t}||c_{t}],e_{j}),e_{j}\in V||T αjcopy=a([htct],ej),ejVT α v o c a b \alpha ^{vocab} αvocab [ h t ∣ ∣ c t ] [h_{t}||c_{t}] [htct]在字典尺度上做线性映射并softmax的结果。

实验结果

为说明图变换网络以及知识图在摘要生成中起到的作用。实验中将图变换网络替换为图注意力网络,将其模型表示为GAT;将不使用知识图信息而只使用图中实体的网络表示为EntityWriter。另外与baseline方法Rewriter做了比较。实验结果如下表所示。

由表1可见,利用了知识图信息的GraphWriter和GAT模型整体结果好于另外两个未考虑图信息的模型。另外GraphWriter模型结果好于GAT模型结果,说明图变换网络的效果要好于图注意力网络。

结论

作者提出了GraphWriter模型,用于从文献标题和对应的知识图中生成文献摘要文本。该模型提出了图变换网络,用于对知识图信息进行编码。并在实验部分证明了知识图对于生成文献摘要的重要作用,以及图变换网络对于提取图信息的优势。



扫码识别关注,获取更多新鲜论文解读

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值