RGCN论文学习(非机器翻译版！！！！)

最新推荐文章于 2024-07-19 16:05:04 发布

Code_Zark

最新推荐文章于 2024-07-19 16:05:04 发布

阅读量4.7k

点赞数 4

文章标签：知识图谱神经网络

本文链接：https://blog.csdn.net/berk666aq/article/details/129580527

版权

RGCN（使用图卷积网络建模关系型数据）

摘要

R-GCN，将其应用于两个标准的知识库完成任务:链接预测(恢复丢失的事实三元组)和实体分类(恢复丢失的实体属性)。

RGCN：是专门为处理现实知识库的高度多关系数据特征而开发的。

我们证明了R-GCNs作为实体分类的独立模型的有效性。我们进一步表明，通过使用编码器模型来丰富链接预测的因子分解模型，例如DistMult，可以显著改善它们，从而在关系图中的多个推断步骤中积累证据，通过数据集FB15k-237进行实验，发现它比仅解码器基线有29.8%的大幅改善。

1、引言

知识库组织和存储事实知识，使包括问题回答、信息检索在内的众多应用成为可能。

问题：即使是最大的知识库，尽管在维护上投入了巨大的努力，但仍然是不完整的，缺乏覆盖会损害下游应用程序。

所以：预测知识库中的缺失信息是统计关系学习(SRL)的研究重点。

根据SRL之前的工作内容，我们假设知识库存储的是三元组(主语，谓语，宾语)的集合。并假设实体是由类型标记的。例：(张三，就读，湖北大学)，湖北大学就是由类型大学所标记。

将知识库表示为有向多重图，实体对应于由标记边编码的节点和三元组。如下图：

SRL的两大基本任务：

链接预测：恢复丢失的三元组。

实体分类：为实体分配类型或类别属性。

在这两种情况下，许多缺失的信息可以预期存在于通过邻近结构编码的图中。

1.2本文模型概述

因此，为关系图中的实体开发了一个编码器模型，将应用于这两种任务。

链接预测模型：可以看作一个自编码器，

包括一个编码器(一个R-GCN，产生实体的潜在特征表示)和一个解码器(一个张量因子分解模型用来预测标记边)

解码器可以使用任何类型的分解，但是我们使用简单有效的分解方法DistMult。这种分解由于因数分解的直接优化。

实体分类模型：在图中的每个节点使用softmax分类器。分类器采用关系图卷积网络(R-GCN)提供的节点表示并预测标签。通过优化交叉熵损失来学习包含R-GCN参数的模型。

1.3本文贡献

第一个证明GCN框架可以应用于关系数据建模，特别是链接预测和实体分类任务
引入了参数共享和强制稀疏约束的技术，并使用它们将R-GCNs应用于具有大量关系的多重图。
以DistMult为例，通过在关系图中执行多个信息传播步骤的编码器模型来丰富因子分解模型，可以显著提高因子分解模型的性能。

2、神经关系模型

我们将有向多重图表示为G = (V, E, R)，其中节点(实体)vi∈V，标记边(关系)(vi, r, vj)∈E，其中r∈R是一种关系类型。

2.1RGCN关系图卷积神经网络

RGCN主要是将只能在局部图邻域操作的GCN，扩展成为能够到大规模关系数据进行操作。

可以理解为一个简单的可微分消息传递框架的特殊情况。

2.1.1传播模型(用于前向更新)

与GCN的区别，我们引入了一个专门用于关系的转换，它依赖于边的类型和方向。

为了确保第 l + 1层的节点表示也可以被l层的相应表示所告知，我们为数据中的每个节点添加了一个特殊关系类型的单个自连接。

注：可以选择更灵活的函数，如多层神经网络，而不是简单的线性消息转换(以计算效率为代价)。

如果使用神经网络层更新包括对图中的每个节点并行计算上述公式，上述公式也可以使用稀疏矩阵乘法来实现，避免邻域显式求和，可以堆叠多个层，可以堆叠多个层，以允许跨几个关系步骤的依赖关系。这种图编码器模型称为关系图卷积网络(R-GCN)。

RGCN单个节点更新的计算图：

计算单个节点/实体 (红色)更新的图表，将来自临近节点(蓝色)的激活(d维向量)被收集起来，然后分别为每个关系类型(出边、入边)进行转换。结果的表示(绿色)被累积成(标准化的)和，并通过激活函数(如ReLU)传递。每个节点的更新可以与整个图中的共享参数并行计算。

2.2正则化

将RGCN前向传播公式应用于多关系数据的核心问题：

随着图中关系的数量，参数的数量迅速增长。造成在罕见的关系或非常大的模型上过拟合。

解决方案：引入了两种单独的方法来正则化RGCN每层的权重：基分解和块对角分解。

综上：

基函数分解可以看作不同关系类型之间的有效权重共享形式，
块分解可以看作每对关系类型的权重矩阵的稀疏性约束。块分解结构编码了一种直觉，即潜在的特征可以分组成组内比组间耦合更紧密的变量集。
这两种分解都减少了学习高度多关系数据(highly multi-relational)(例如现实的知识库)所需的参数数量。
同时，我们期望基参数化可以缓解罕见关系上的过拟合，因为参数更新在罕见关系和常见关系之间共享。

2.3RGCN整体架构

2.3.1实体分类任务

2.3.1链接预测任务

链接预测任务用来处理新的事实三元组，在形式上知识库是由有向标记 G = (V, E, R)表示，然而我们得到的边并不是完整集合，而只是一个不完整的边的子集，。而链接预测任务就是，为可能的边分配评分函数，来确定这些边属于知识库完整集合的概率有多大。

为了解决这个问题，我们引入了一个图形自动编码器模型，由一个实体编码器和一个评分函数(解码器)组成。

编码器：将每个实体映射到每个真实值向量

解码器：根据顶点表示重建图的边。即，通过评分函数 s：对三元组进行评分。

目前常见的链接预测方法有：张量和神经因子分解方法、

2.3.1.1本文方法的关键区别

本文工作的关键区别在于对编码器的依赖，虽然大多数先前的方法对训练中直接优化的每个边vi∈V使用单个实值向量ei，但我们通过的R-GCN编码器计算表示。

我们的全链路预测模型如图3b所示。

在我们的实验中，使用DistMult因子分解作为评分函数，当单独使用时，它在标准链接预测基准上表现良好。

在DistMult中，每个关系r都与对角矩阵相关联，一个三元组(s, r, o)被评分为如下：

我们使用⭐负抽样训练模型。对于每一个观察到的样本，我们对其中我们对ω负的样本进行采样。

我们通过随机破坏每个正面例子的主体或客体进行抽样。我们优化了交叉熵损失，使模型的得分比负值高出三倍:

其中是真实的和损坏的三元组的总集合，l是logistic sigmoid函数，y是一个指标集，y = 1表示正三元组，y = 0表示负三元组。

穿插1 正样本、负样本

自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。

比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。

负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。

训练需要正样本和负样本同时存在。

3、实验评估

3.1实体分类实验

对知识库的实体进行分类任务，为了推断出这个实体是一个人还是一个公司，一个成功的模型需要推理该实体所涉及的与其他实体的关系。

3.1.1数据集

AIFB, MUTAG, BGS和AM，这四个数据集是资源描述框架格式的数据集，用来评估我们的模型。

这些数据集中的关系不一定需要编码定向的主实体-客实体关系，但也可以用于编码给定实体的特定特征的存在或不存在。

要分类的目标以节点表示的一组实体的属性。(按照实体属性将节点进行分类。)

下面是这四个数据集的具体情况：

实体、关系、边和类的数量，以及每个数据集的标记实体的数量。labelled表示有标签且要分类的实体子集。

3.1.2基线⭐

基线：进行实验处理前的时间界限。神经网络实验基线指被试经过实验处理开始变化的时间点。

作为本实验的基准，我们与RDFVec嵌入、WL、Feat最先进的分类结果进行比较。

Feat：Feat从每个标记实体的内度和出度（每个关系）组装一个特征向量。

RDF2Vec：RDF2Vec提取标记图上的行走，然后使用跳跃图（Mikolov et al. 2013）模型进行处理，以生成实体嵌入，用于后续分类。

穿插1、什么是基线

在CVPR2016的best paper, 也就是何凯明的Deep Residual Learning for Image Recognition一文中，对于34层残差卷积神经网络和34层普通卷积神经网络，做了对比，在对比中普通CNN被称为plain baseline;

ICCV2017的一篇使用GAN进行数据增强的文章Unlabeled Samples Generated by GAN Improve the Person Re-indentification Baseline in vitro 中在abstract中描述自己的结果比一个强大的baseline准确率提高了0.6%

由此二者结合一些网上的资料可见，baseline一词应该指的是对照组，基准线，就是你这个实验有提升，那么你的提升是对比于什么的提升，被对比的就是baseline。

因此，基线评估法是一种基本的评价方法，主要用来监测目标及相关情况的进展和变化，具体反映四个方面的情况：一是反映要解决的问题；二是有限的几个指标跟踪反映目标进展情况；三是反映的变化是连续的、容易测度；四是记录的基线变化在测量期的变化比较明显，并提供比较、判断的基础。

3.1.3结果

实验结果情况：

最终的测试结果都在下表中：

实体分类结果的准确性(平均超过10次运行)为基于特征的基线，WL， RDF2Vec，以及R-GCN。测试性能是在Ristoski, de Vries和Paulheim(2016)提供的训练/测试集分割上报告的。

我们进一步留出20%的训练集作为超参数调优的验证集。

对于R-GCN，我们报告了一个具有16个隐藏单元（10个为AM）的2层模型的性能，基函数分解(Eq.3)，并与Adam一起进行了50轮迭代的训练，学习率为0.01。选择归一化常数为。

关于基线模型和超参数选择的进一步细节在补充材料中提供。

实验结果：

我们的模型在AIFB和AM上取得了最先进的结果。

为什么RGCN在MUTAG和BGS这两个性能上处于劣势呢？

答：

MUTAG是一个分子图数据集，后来被转换为RDF格式，其中的关系要么表示原子键，要么仅表示某种特征的存在。

BGS是一个具有分层特征描述的岩石类型数据集，类似地转换为RDF格式，其中关系编码某种特征或特征层次结构的存在。MUTAG和BGS中的标记实体仅通过编码某种特征的高度集线器节点连接。

由此推测，来自邻近节点的消息聚合的规范化常数的固定选择是导致这种行为的部分原因，这对于高度节点来说尤其成问题。

为了克服这种限制，我们需要引入一种注意力机制：将归一化常数替换为以来数据的注意权重，其中

3.2链接预测实验

3.1节我们实验证明了，RGCN是关系数据的有效编码器，现在我们将编码器模型与评分函数(解码器)结合起来，为知识库中链接预测的候选三元组评分。

3.2.1数据集

链接预测算法通常在 FB15k和WN18上进行评估。但是！

这两个数据集的缺陷是：存在一对互逆的三元组，，t在训练集中，t'在测试集中。

这将很大一部分预测任务减少为记忆受影响的三元组对。在观察到的训练关系的稀疏特征向量上使用线性分类器的简单基线LinkFeat被证明大大优于现有系统。

为了解决这个问题，Toutanova和Chen提出了一个精简的数据集FB15k-237，删除了所有这样的逆三元组对。

因此本文选择FB15k-237作为我们的主要评估数据集。

由于FB15k和WN18仍然被广泛使用，我们还使用Bordes等引入的分割来包括这些数据集上的结果。

3.2.2基线

这两个实验的共同基准是DistMult的直接优化，这种分解策略在标准数据集上表现良好，并且进一步对应我们的模型版本。如第二节所述，我们使用固定实体嵌入代替RGCN编码器。第二个基线，我们添加了基于邻居的LinkFeat算法。

进一步比较了ComplEx和HolE，这两个最先进的FB15k和WN18链路预测模型。ComplEx通过将DistMult泛化到复数域来简化非对称关系的建模，而HolE则用循环相关替换向量矩阵乘积。

最后，与两种经典算法 CP和TransE相比较。

3.2.3结果

实验结果情况：

评估指标为：平均倒数排名MRR和前n点击率H@n。

我们在各自的验证分段上评估超参数选择。

我们找到了下面的定义好的标准化常数，

对于FB15k和WN18，我们使用具有两个基函数的基分解(2.2.1的公式)和具有200维嵌入的单一编码层报告结果。

对于FB15k-237，我们发现块分解(2.2.3公式)表现最好，使用两个块维度为5 × 5和500维嵌入的层。

我们通过在归一化之前应用边dropout对编码器进行正则化，自循环的dropout率为0.2，其他边的dropout率为0.4。

使用边dropout能够是我们的训练目标类似于去噪自编码器。

我们对解码器应用l2正则化，惩罚值为0.01。

使用Adam优化器，学习率为0.01.

对于基线和其他因子分解，我们发现来自Trouillon等人(2016)的参数-除了FB15k-237上的维度-效果最好，尽管为了使系统具有可比性，我们保持相同数量的负样本(即ω = 1)。

我们对基线和模型都使用了全批量full-batch 优化。

实验结果：

在FB15k上，与RGCN模型的设计产生鲜明对比的是，逆关系F形式的局部上下文预计将主导因子分解的性能。为了理解这种差异，我们绘制了下图，最佳RGCN模型的FB15k性能和基线DistMult，

纵坐标为MRR平均倒数排名，横坐标为节点的平均度（也就是主体与客体的平均值）

观察结果：

在上下文丰富的节点上，模型的表现良好
这两个模型是互补的，因此基于二者的优点，我们提出了一个RGCN+
在FB15k和WN18上，预计RGCN+优于其他的单独模型
但在局部信息不明显的FB15k-237上，我们不期望RGCN+优于RGCN，

为了测试这一点，我们用训练过的RGCN和单独训练过的DistMult因式分解模型评估RGCN+

在FB15k数据上将α = 0.4

下表是我们的实验结果情况表：

在FB15k和WN18数据集上，R-GCN和R-GCN+都优于DistMult基线，

但与LinkFeat算法相比，像所有其他系统一样，在这两个数据集上表现不佳。这也体现了LinkFeat这个基线的强大，也强调了逆关系对对这些数据集的高性能解决方案的贡献。
对于FB15k, RGCN+的性能比ComplEx更好，尽管R-GCN解码器(DistMult)没有显式地模拟关系中的不对称，而ComplEx却显式的模拟了关系中的不太对称。

这表明将R-GCN编码器与ComplEx评分函数(解码器)相结合可能是未来工作的一个有前途的方向。 评分函数的选择与编码器的选择正交;原则上，任何评分函数或分解模型都可以作为解码器合并到我们的自动编码器框架中。

在下表中，我们展示了FB5k-237的结果，其中反向关系对已经被删除

LinkFeat基线未能泛化
R-GCN模型比DistMult基线的性能高出29.8%，突出了单独编码器模型的重要性。

正如我们之前的分析所预期的那样，R-GCN和R-GCN+在这个数据集上表现出类似的性能。R-GCN模型进一步优于其他分解方法，尽管依赖于DistMult解码器，在没有编码器的情况下表现出相对较弱的性能。

4、相关工作

4.1相关模型

我们用于链接预测的编码器-解码器方法依赖于解码器中的DistMult，这是RESCAL分解的一种特殊且更简单的情况，在多关系知识库的背景下比原始RESCAL更有效。

在SRL的背景下，已经提出并研究了许多可供选择的因子分解，包括(双)线性和非线性。这些方法中的许多都可以被视为经典张量分解方法(如CP或Tucker)的修改或特殊情况。

在知识库中实体之间的路径合并最近受到了相当多的关注。我们可以将以前的工作大致分为三个方向

(1)创建辅助三元组的方法，然后将其添加到因子分解模型的学习目标中

(2)在预测边缘时使用路径(或行走)作为特征的方法

(3)或者在预测边缘时同时使用路径、行走作为特征的方法

第一个方向在很大程度上与我们的方向正交，因为我们也希望通过在损失中添加类似的项来改进(换句话说，扩展我们的解码器)。第二条研究路线更具可比性;相对于这些基于路径的模型，R-GCNs提供了一种计算成本更低的替代方案。

4.2GCN

RGCNs可以进一步被视为消息传递神经网络的一个子类，它包含了许多先前的图的神经模型，包括GCNs，在可微分的消息传递解释下。

5、结论

我们引入了关系图卷积网络RGCNs，并在两个标准统计关系建模问题(链接预测和实体分类)的背景下证明了它们的有效性。

对于实体分类问题，我们已经证明R-GCN模型可以作为一个有竞争力的，端到端可训练的基于图形的编码器。

对于链路预测，采用DistMult分解作为解码组件的R-GCN模型优于直接优化的分解模型，并在标准链路预测基准上取得了具有竞争力的结果。事实证明，使用RGCN编码器丰富因子分解模型对于具有挑战性的FB15k-237数据集尤其有价值，比仅使用解码器的基线提高了29.8%。

有几种方式可以扩大我们的工作。例如，图形自编码器模型可以与其他因子分解模型结合考虑，例如，它可以更好地适用于非对称关系的建模。在R-GCNs中集成实体特征也很简单，这对链路预测和实体分类问题都有好处。为了解决我们方法的可扩展性，探索子抽样技术是值得的，。最后，用一种依赖于数据的注意机制取代当前对相邻节点和关系类型求和的形式是有希望的。除了建模知识库之外，R-GCNs还可以推广到其他应用程序，在这些应用程序中，关系因子分解模型已经显示出了有效性(例如，关系提取)。