Modeling Relational Data with Graph Convolutional Networks（2017）

最新推荐文章于 2022-09-04 11:08:10 发布

阿凡凡提

最新推荐文章于 2022-09-04 11:08:10 发布

阅读量837

点赞数 1

分类专栏：图卷积网络文章标签：人工智能

图卷积网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

用图卷积网络建模关系数据（2017）

摘要

知识图支持多种应用，包括问答和信息检索。尽管在它们的创建和维护上投入了巨大的努力，但即使是最大的产品(如Yago、DBPedia或wikidata)仍然不完整。

我们引入了关系图卷积网络(R-GCN)，并将其应用于两个标准的知识库完成任务：链接预测(缺失事实的恢复，即主谓宾语三元组)和实体分类(缺失实体属性的恢复)。

GCN与最近一类在图上运行的神经网络有关，是专门为处理现实知识库的高度多关系数据特性而开发的。我们证明了R-GCNs作为实体分类的独立模型的有效性。

我们进一步表明，通过使用编码器模型对链路预测的因子分解模型(如DistMult)进行丰富，以在关系图中的多个推理步骤上积累证据，可以显著改进链路预测的因子分解模型，表明FB15k-237比仅解码器基线有29.8%的大幅改进。

研究内容

知识库组织和存储事实知识，支持多种应用，包括问答(Yao和Van Durme 2014；Bao等人2014；Seyler、Yahya和Berberich 2015；Hixon、Clark和Hajishirzi 2015；Bordes等人2015；Dong等人2015)和信息检索(Kotov和翟2012；Dalton、Dietz和al lan 2014；Xiong和Callan 2015b；2015a)。

即使是最大的知识库(例如DBPedia、Wikidata或Yago)，尽管在维护方面投入了巨大的精力，但都是不完整的，缺乏覆盖也会损害下游应用程序。

预测知识库中的缺失信息是统计关系学习(SRL)的主要重点。根据之前关于SRL的工作，我们假设知识库存储形式的三元组(主语、谓词、宾语)的集合。例如，考虑三元组(Mikhail Baryshnikov，educated at，Vaganova Academy)，其中我们将Baryshnikov和Vaganova Academy称为实体，将educated at称为关系。

此外，我们假设实体被标记为类型(例如，Vaganova Academy被标记为大学)。可以方便地将知识库表示为有向标记的多重图，其中实体对应于节点和由标记边编码的三元组(见图1)。

Figure 1: 知识库片段：节点是实体，边是用其类型标记的关系，节点用实体类型标记(例如，大学)。以红色显示的边和节点标签是要推断的缺失信息。

我们考虑两个基本的SRL任务：链接预测(恢复缺失的三元组)和实体分类(为实体分配类型或分类属性)。在这两种情况下，许多缺失的信息片段可以预期位于通过邻域结构编码的图中，即知道Mikhail Baryshnikov在Vaganova Academy接受教育意味着Mikhail Baryshnikov应该有标签person，并且三元组 (Mikhail Baryshnikov, lived in, Russia)对于知识图必须很长。

根据这种直觉，我们为关系图中的实体开发了一个编码器模型，并将其应用于这两个任务。我们的实体分类模型类似于Kipf和Welling(2017)，在图中的每个节点使用softmax分类器。分类器采用关系图卷积网络(R-GCN)提供的节点表示并预测标签。该模型包括R-GCN参数，通过优化交叉熵损失来学习。

我们的链路预测模型可以被视为一个自动编码器，包括(1)编码器：产生实体潜在特征表示的R-GCN，和(2)解码器：利用这些表示来预测标记边缘的张量分解模型。

虽然原则上解码器可以依赖任何类型的因子分解(或通常任何评分函数)，但我们使用了最简单和最有效的因子分解方法之一：DistMult(Yang等人，2014)。我们观察到，我们的方法在标准基准上取得了有竞争力的结果，优于因子分解的直接优化(即vanilla DistMult)。

当我们考虑更具挑战性的FB15k-237数据集时，这种改进尤其大(Toutanova和Chen 2015)。这一结果表明，在R-GCN中显式建模邻域有助于恢复知识库中缺失的事实。

提出的方法&模型架构

神经关系建模

我们引入以下符号：我们将有向和标记的多图表示为G=(V，E，R)，其中带有节点(实体)vi∈V和标记的边(关系)(vi，r，vj)∈E，其中r∈R是一种关系类型。

关系图卷积网络

Figure 2:计算R-GCN模型中单个图形节点/实体(红色)更新的图表。从邻近节点(深蓝色)获得的激活(d维向量)被收集起来，然后分别对每种关系类型进行转换(对于内边和输出边)。所得到的表示(绿色)是一个(标准化)的累积总和，并通过激活函数(如ReLU)传递。这个每个节点的更新可以与整个图中的共享参数并行计算。

规格化

实体分类

链接预测

文章贡献

我们是第一个证明GCN框架可以应用于关系数据建模的人，特别是链接预测和实体分类任务。

其次，我们介绍了参数共享和实施稀疏约束的技术，并使用它们将R-GCN应用于具有大量关系的多图。

最后，我们证明了在DistMult的例子中，通过使用在关系图中执行多步骤信息传播的编码器模型，可以显著提高因子分解模型的性能。

补充知识

关系建模

我们的编码器-解码器链路预测方法依赖于解码器中的DistMult(Yang等人，2014)，这是RESCAL分解的一种特殊而更简单的情况，在多关系知识库中比原始的RESCAL更有效。

在SRL的背景下提出并研究了许多替代因子分解，包括(双线性和非线性)因子分解(例如(Bordes等人2013；Socher等人2013；Chang等人2014；Nickel、Rosasco和Poggio 2015；Trouillon等人2016))。其中许多方法可以被视为经典张量分解方法(如CP或Tucker)的修改或特例；有关张量分解文献的全面概述，请参阅Kolda和Bader(2009)。

最近，将实体之间的路径合并到知识库中受到了相当多的关注。我们可以将之前的工作大致分为

创建辅助三元组的方法，然后将其添加到因子分解模型的学习目标中；
在预测边缘时，使用路径(或行走)作为特征的方法(Lin等人，2015)；

或者(3)同时做这两件事(Nee lakantan、Roth和McCallum，2015；Toutanova等人，2016)。

第一个方向在很大程度上与我们的方向正交，因为我们也希望在我们的损失中添加类似的术语(换句话说，扩展我们的解码器)能够得到改进。

第二条研究路线更具可比性；R-GCNs为这些基于路径的模型提供了计算成本较低的替代方案。直接比较有些复杂，因为基于路径的方法使用不同的数据集(例如，来自知识库的行走子采样)。

图上的神经网络

我们的R-GCN编码器模型与图上神经网络领域的许多工作密切相关。它主要是为了适应大规模和高度多关系数据的GCN上的先前工作，具有现实知识库的特点。

该领域的早期工作包括Scarselli等人(2009年)的图形神经网络。已经提出了对原始图神经网络的许多扩展，最显著的是(Li等人，2016年)和(Pham等人，2017年)，这两种扩展都利用选通机制来促进优化。

R-GCN还可以被视为消息传递神经网络的一个子类(Gilmer等人，2017年)，它包含了许多以前的图形神经模型，包括GCN，在可微消息传递解释下。

数据集

实体分类实验

在这里，我们考虑在知识库中对实体进行分类的任务。例如，为了推断实体的类型(例如，个人或公司)，成功的模型需要对与该实体所涉及的其他实体的关系进行推理。

数据集：我们在资源描述框架(RDF)格式的四个数据集3(Ristoski、de Vries和Paulheim 2016)上评估了我们的模型：AIFB、MUTAG、BGS和AM。这些数据集中的关系不一定需要编码定向主客体关系，但也用于编码给定实体的特定特征的存在或不存在。在每个数据集中，要分类的目标是表示为节点的一组实体的属性。数据集的确切统计数据见表1。有关数据集的更详细描述，请参阅Ristoski、deVries和Paulheim(2016)。我们删除了用于创建实体标签的关系：AIFB的雇佣关系和从属关系，MUTAG的Ismutagene，BGS的HasLithogence，AM的对象类别和材料。

作为我们实验的基线，我们比较了RDF2Vec嵌入(Ristoski和Paulheim 2016)、Weisfeiler-Lehman-kernels(WL)(Shervashidze等人2011；de Vries和de Rooij 2015)和手工设计的拖拉机功能(Feat)(Paulheim和F¨umkranz 2012)的最新分类结果。Feat根据每个标记实体的进出度(每个关系)组合特征向量。RDF2Vec提取标记图上的行走，然后使用Skipgram(Mikolov等人，2013)模型进行处理，以生成实体嵌入，用于后续分类。有关这些基线方法的深入描述和讨论，请参阅Ristoski和Paul heim(2016)。所有实体分类实验都在内存为64GB的CPU节点上运行。

链路预测实验

如前一节所示，R-GCN是关系数据的有效编码器。现在，我们将编码器模型与评分函数(我们将其称为解码器，见图3b)相结合，对候选三元组进行评分，以便在知识库中进行链路预测。数据集链接预测算法通常在FB15k(关系数据库Freebase的子集)和WN18(包含单词间词汇关系的WordNet的子集)上进行评估。在Toutanova和Chen(2015)中，在两个数据集中观察到一个严重缺陷：存在反向三联体对t=(e1，r，e2)和t0=(e2，r)−1，e1)，t在训练集中，t0在测试集中。这将很大一部分预测任务减少到记忆受影响的三联体对。在观察到的训练关系的稀疏特征向量上使用线性分类器的简单基线LinkFeat被证明比现有系统有很大的优势。为了解决这个问题，Toutanova和Chen提出了一个简化的数据集FB15k-237，删除了所有这些反向三重态对。因此，我们选择FB15k-237作为主要评估数据集。由于FB15k和WN18仍被广泛使用，我们还包括使用Bordes等人(2013)引入的拆分对这些数据集的结果。

基线两个实验的共同基线是直接优化DistMult(Yang等人，2014)。众所周知，这种因子分解策略在标准数据集上表现良好，并且与我们的模型版本相对应，该模型具有固定实体嵌入，以代替第4节中所述的R-GCN编码器。作为第二个基线，我们添加了Toutanova和Chen(2015)提出的基于简单邻域的LinkFeat算法。我们进一步比较了复数(Trouillon等人，2016)和hole(Nickel、Rosasco和Poggio 2015)，这两种最先进的FB15k和WN18链路预测模型。复数通过将DistMult推广到复数域，方便了不对称关系的建模，而空穴则用循环相关替换向量矩阵乘积。最后，我们对两种经典算法进行了比较——CP(Hitchcock 1927)和TransE(Bordes等人，2013)。

实验

结论

我们介绍了关系图卷积网络(R-GCN)，并在两个标准的统计关系建模问题：链路预测和实体分类中证明了它们的有效性。

对于实体分类问题，我们证明了R-GCN模型可以作为一个具有竞争力的、端到端可训练的基于图的编码器。

对于链路预测，以DistMult分解作为解码组件的R-GCN模型优于直接优化的分解模型，并在标准链路预测基准上取得了有竞争力的结果。

事实证明，使用R-GCN编码器丰富因子分解模型对于具有挑战性的FB15k-237数据集特别有价值，比仅使用解码器的基线提高了29.8%。

有几种方法可以扩展我们的工作。例如，可以将图形自动编码器模型与其他因子分解模型相结合，例如复数(Trouillon等人，2016)，后者更适合建模不对称关系。在R-GCN中集成实体特征也很简单，这将有利于链路预测和实体分类问题。

为了解决我们方法的可扩展性，值得探索子采样技术，例如Hamilton、Ying和Leskovec(2017)中的子采样技术。最后，有希望用数据相关注意机制取代当前对相邻节点和关系类型的求和形式。除了建模知识库之外，R-GCN还可以推广到其他应用，在这些应用中，关系分解模型已被证明是有效的(例如，关系提取)。