《Graph Neural Networks with Generated Parameters for RelationExtraction》阅读笔记

《Graph Neural Networks with Generated Parameters for Relation Extraction》阅读笔记

 Abstract

近年来,在机器学习领域,关系推理的改进取得了进展。在现有模型中,图神经网络是多跳关系推理的最有效方法之一。事实上,多跳关系推理在许多自然语言处理任务中是不可缺少的,例如关系抽取。本文通过自然语言语句提出带有生成参数的图神经网络,使图神经网络能够处理非结构化文本输入的关系推理。在一个人工标注数据和两个远程监督数据集上的实验结果表明,与baseline相比,GP-GNN模型取得了显著的提升。Case Study 可看到模型可以通过多跳关系推理发现更准确的关系。

1 Introduction

近年来,图神经网络已被应用于机器学习的各个领域,包括节点分类、关系分类、分子性质预测、小样本学习,并在这些任务上取得了优秀的成果,证明了GNNs处理图关系推理的强大能力。关系推理旨在抽象地推理实体/对象及其关系——给定一个具有m个实体的文本序列,对文本和实体进行推理并预测实体或实体对的类别。除了图之外,关系推理在许多自然语言处理任务中也很重要,如问答、关系抽取、摘要等。考虑图1所示的例子,现有的关系抽取模型可以很容易地抽取出Luc Besson导演的电影《Leon:The Professional》和这部电影是English的事实,但是如果没有多跳关系推理,就无法推断出Luc Besson和English之间的关系。通过对推理模式的研究,可以发现Luc Besson会说英语,遵循“Luc Besson执导的《Leon:The Professional》这部电影是用English拍摄的,表明Luc Besson会说English” 这一推理逻辑。然而,大多数现有的GNNs只能处理预定义图上的多跳关系推理,不能直接应用于自然语言关系推理。在自然语言中实现多跳关系推理仍然是一个未解决的问题。

给定一个带有多个实体的句子,通过生成图神经网络的权重来对这些实体之间的关系进行建模。对“L'eon”和“英语”以及“Luc Besson”之间关系的建模有助于发现“Luc Besson”和“English”之间的关系。

为了解决这个问题,本文提出了带有生成参数(GP-GNN)的图神经网络,以适应GNN来解决自然语言关系推理任务。 GP-GNN首先用文本序列中的实体构造一个全连接图, 之后使用三个模块来处理关系推理:(1)使边能够对自然语言中的丰富信息进行编码的编码模块;(2)在各个节点之间传播关系信息的传播模块;(3)使用节点表示进行预测的分类模块。 与传统的GNN相比,GP-GNN可以从自然语言中学习边的参数,将其范围从仅对非关系图或边类型数量有限的图进行推断扩展到文本等非结构化输入。实验中将GP-GNNs应用于一个经典的自然语言关系推理任务:从文本中提取关系。在维基百科语料库中进行了与维基数据库知识库相结合的实验,建立了一个人工标注测试集和两个具有不同密集度的远距标注测试集。实验结果表明,通过考虑多跳关系推理,该模型在关系抽取任务上优于其他模型。定性分析结果表明,与基模型相比,该模型通过推理可以发现更多的关系。

主要贡献:

1)提出了一个新的带有生成参数的图神经网络模型,实现了带有丰富文本信息的关系消息传递,可以应用于处理非结构化输入(如自然语言)的关系推理。

2)在文本关系抽取任务中验证了GP-GNNs与抽取关系模型的对比,证明了其多跳关系推理能力。

2  Related Work

3  GP-GNNs

GP-GNN首先建立完全连通图G=\left ( \nu,\varepsilon \right ),其中V是实体的集合,每个边\left ( \nu _{i},\nu _{j} \right )\in \varepsilon\nu _{i},\nu _{j}\in \nu对应于从文本中提取的序列s= x_{0}^{i,j},x_{1}^{i,j},\cdots ,x_{l-1}^{i,j}。之后GP-GNN采用三个模块进行关系推理,包括编码模块、传播模块和分类模块,如图2所示。

总体架构:编码模块将一系列向量表示作为输入,并输出一个转移矩阵; 传播模块利用生成的转移矩阵将隐藏状态从节点传播到其邻居。分类模块根据节点表示提供与任务相关的预测。

3.1  Encoding Module

编码模块将序列转换为边相关的转移矩阵,即传播模块的参数,通过以下公式。其中f\left ( \cdot \right ) 是可以对序列数据进行编码的任何模型,例如LSTM、GRU、CNN,E\left ( \cdot \right ) 表示嵌入函数,\theta _{e}^{n} 表示第n层编码模块的参数。

3.2  Propagation Module

传播模块逐层学习节点的表示形式,节点的初始嵌入(即第0层的表示)与任务相关,可以是对节点特征进行编码的嵌入,也可以是one-hot编码嵌入。给定层n的表示形式,n +1 层的表示形式通过下面公式计算,其中 N\left ( \nu _{i} \right ) 表示图G中节点v的邻域,\sigma \left ( \cdot \right ) 表示非线性激活函数。

3.3  Classification Module

分类模块将节点表示作为输入和输出预测,GP-GNN的损失公式则为(3),其中 \theta _{c} 表示分类模块的参数,K表示传播模块的层数,Y表示真实标签,通过梯度下降方法训练。

4  Relation Extraction with GP-GNNs

从文本中提取关系是经典的自然语言关系推理任务。 给定句子s=\left ( x_{0},x_{1},\cdots ,x_{l-1} \right ),此句子中的一组关系R和一组实体\nu _{s},其中每个\nu _{i} 由一个或一系列token组成,从文本中提取关系是为了识别每个实体对 \left ( v_{i},v_{j} \right ) 之间的成对关系r_{v_{i},v_{j}}\in R

4.1  Encoding Module

为了对实体对(或图中的边)的上下文进行编码,首先将位置嵌入与句子中的单词嵌入连接起来E\left ( x_{t}^{i,j} \right )= \left [ x_{t};p_{t}^{i,j} \right ];其中 x_{t} 表示单词 x_{t} 的词嵌入,p_{t}^{i,j} 表示单词位置 t 相对于实体对的位置 i,j 的位置嵌入。之后将实体对的表示送入编码器 f\left ( \cdot \right ),该编码器包含双向LSTM和多层感知器,其中n表示层索引(添加索引意味着网络模型各层参数不同),\left [ \cdot \right ] 表示将向量转换为矩阵,BiLSTM通过将前向LSTM的尾部隐藏状态和后向LSTM的头部隐藏状态串联在一起来编码序列,MLP表示具有非线性激活的多层感知器。

Word Representations  首先使用词嵌入矩阵W_{e}\in \mathbb{R}^{\left | V \right |\times d_{w}},将句子 {x0,x1,...,xl-1} 的每个标记 x_{t} 映射到 k 维嵌入向量x_{t},其中| V |是词汇量的大小。 本文中使用60亿大小的语料库进行50维的GloVe嵌入预训练。

Position Embedding  将句子中的每个token标记为属于第一实体 \nu _{i},第二实体 \nu _{j} 或都不属于这两个实体,每个位置标记还通过位置嵌入矩阵P\in \mathbb{R}^{3\times d_{p}} 映射到 d_{p} 维向量, p_{t}^{i,j} 表示 x_{t} 对应于实体对 \left ( v_{i},v_{j} \right ) 的位置嵌入。

4.2  Propagation Module

The Initial Embeddings of Nodes  提取实体 \nu _{i} 和实体 \nu _{j} 之间的关系,它们的初始嵌入记为 h_{\nu _{i}}^{\left ( 0 \right )}= a_{subject},h_{\nu j}^{\left ( 0 \right )}= a_{object},而其他实体的初始嵌入全部设置为零。为头、尾实体的初始嵌入设置特殊值作为一种“flag”消息,并通过传播模块来传递这些消息。 a_{subject},a_{object} 也可以携带有关subject和object实体的先验知识,实验中设置 a_{subject}= \left [ 1;0 \right ]^{T},a_{object}=\left [ 0;1 \right ]^{T}。(门控神经网络思想)

Numbers of Layers  在一般图中,层数K选择为图直径(怎么判断图直径)的数量级,以便所有节点都从整个图中获取信息。 但是由于本文中图紧密连接,层数可理解为赋予模型更多的表达能力。

4.3  Classification Module

输出模块将目标实体对 \left ( v_{i},v_{j} \right ) 的嵌入作为输入,这些嵌入首先由(6)转换,其中 \odot 表示逐元素相乘。公式(7)用于分类,其中r_{\nu _{i,\upsilon _{j}}}\in R,MLP表示多层感知器模块,使用交叉熵(8)作为分类损失,其中r_{\nu _{i,\upsilon _{j}}} 表示实体对 \left ( v_{i},v_{j} \right ) 的关系标签,S表示整个语料库。 实验中将每个目标实体对的嵌入表示堆叠在一起,以推断每对实体之间的潜在关系。

5  Experiments

实验主要目的是:(1)证明本文的最佳模型可以在各种设置下提高关系提取的表现;(2)说明层数如何影响模型的性能;(3)进行定性研究以突出本文模型与基准模型之间的差异。 在第(1)部分和第(2)部分中,进行了三个子实验:(i)将首先证明本文模型可以提高人工标注测试集上的实例级关系提取,(ii)然后证明所提模型可以帮助提高在远距离标记的测试集上的袋级关系提取的性能,并且(iii)还拆分了远距离标记的测试集的子集,其中实体和边的数量很大。

5.1  Experiments

5.1.1  Datasets

Distantly labeled set  Sorokin和Gurevych用Wikipedia语料库提出了一个数据集,本文任务与其任务之间有一个小区别:本文任务是提取句子中每对实体之间的关系,而他们的任务是提取给定实体对与上下文实体对之间的关系。 因此需要修改其数据集:1)如果给定三元组中缺少反向边??,例如如果句子中存在三元组(Earth, partof, SolarSystem),则向其添加一个反向标签(Solar System, partof, Earth)如何添加;2)对于所有没有关系的实体对,在它们之间添加了“NA”标签,对所有实验都使用相同的训练集。

Human annotated test set  根据Sorokin and Gurevych提供的测试集,需要5个annotator标记数据集,被用来决定是否对每一对实体都使用远程监督,只有所有5个annotator都接受的实例才合并到人工标注的测试集中,最终测试集中有350个句子和1,230个三元组。
Dense distantly labeled test set  进一步从远距离标记的测试集中拆分出一个密集的测试集,标准是:实体数量应严格大于2;句子的真实标签中必须至少有一个圆(至少有三个实体)(圆的每个边都有一个非“NA”标签)。该测试集可用于测试论文方法在实体之间具有复杂相互作用的句子上的表现,该测试集中有1,350个句子、超过17,915个三元组和7,906个关系。

5.1.2  Models for Comparison

5.1.3  Hyper-parameters

5.2  Evaluation Details

5.3  Effectiveness of Reasoning Mechanism

从表2和表3中可以看出,本文最佳模型在所有三个测试集上的性能均明显优于所有基模型。这些结果表明GP-GNN模型可以使用自然语言生成的参数对完全连接的图成功进行推理。这些结果还表明本模型不仅在句子级关系提取上表现良好,而且在袋级关系提取上也有所改进。请注意,Context-Aware RE还结合了上下文信息来预测目标实体对的关系,但是Contect-Aware RE仅对各种关系的共现建模,而忽略了上下文关系是否参与了目标实体对的关系提取的推理的过程。Context-Aware RE可能会引入更多的噪音,因为它可能会错误地增加与具有上下文关系的相似主题的关系的可能性。另一个发现是,在这三个数据集中,GP-GNN#layers = 1版本优于CNN和PCNN,一个可能的原因是,维基百科语料库中的句子很复杂,对于CNN和PCNN而言可能很难建模。 Zhang和Wang(2015)也得出了类似的结论。

5.4  The Effectiveness of the Number of Layers

层数表示模型的推理能力,K层模型具有推断K跳关系的能力。为了证明层数的影响,比较了具有不同层数的模型。从表2和表3中可以看到,在所有三个数据集上,三层模型均达到最佳。从图3中还可以看到,随着层数的增加,曲线变得越来越精确,这表明在推理中考虑更多hops会导致更好的表现。但是在整个远程监督测试集上,第三层的提升要比在密集子集上的提升小得多。这种观测表明推理机制可以帮助识别关系,尤其是在存在更多实体的句子上。还可以看到,在带有人工标注的测试集上,3层模型比2层模型相比2层模型比1层模型有更大的提升,可能是由于袋级关系提取更加容易的原因。在实际应用中,可以为不同类型的句子选择不同的变量,或也可以将来自不同模型的预测整合在一起。

5.5  Qualitative Results:Case Study

6  Conclusion and Future Work

解决了利用GNN与自然语言进行关系推理的问题,提出的模型GP-GNNs通过将自然语言编码为参数并执行层与层之间的传播来解决关系消息传递任务。 新模型也可以被认为是解决非文本输入(例如文本,图像,视频,音频)的图生成问题的通用框架。在这项工作中,证明了其在预测自然语言和袋级实体之间的关系方面的有效性,并表明通过在推理中考虑更多跃点,关系提取的效果可以得到显着改善。

 

 

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值