【论文翻译】用图卷积网络建模关系数据

用图卷积网络建模关系数据


摘要


知识图支持广泛的应用,包括问题回答和信息检索。尽管在它们的创建和维护方面投入了巨大的努力,但即使是最大的(如Yago、DBPedia或Wikidata)也仍然不完整。我们引入关系图卷积网络(R-GCNs),并将其应用于两个标准的知识库完成任务:链接预测(缺失事实的恢复,即主谓宾三元组)和实体分类(缺失实体属性的恢复)。R-GCNs与最近一类在图形上运行的神经网络有关,并且是专门为处理现实知识库的高度多关系数据特征而开发的。我们证明了作为一个独立的实体分类模型的有效性。我们进一步表明,通过使用R-GCN编码器模型在图中的多个推理步骤上积累证据,用于链路预测的因子分解模型(如DistMult)可以得到显著改善,与仅使用解码器的基线相比,FB15k-237的改善幅度高达29.8%。


1简介


        知识库组织和存储事实知识,支持多种应用,包括问答[1–6]和信息检索[7–10]。即使是最大的知识库(如DBPedia、Wikidata或Yago),尽管在维护上投入了巨大的努力,也是不完整的,覆盖面的缺乏会损害下游应用程序。预测知识库中缺失的信息是统计关系学习的主要焦点(SRL)。
        我们考虑两个基本的SRL任务:链接预测(丢失三元组的恢复)和实体分类(为实体分配类型或分类属性)。在这两种情况下,许多缺失的信息可能会驻留在通过邻域结构编码的图中。根据这种直觉,我们为关系图中的实体开发了一个编码器模型,并将其应用于这两项任务。
        我们的实体分类模型在图中的每个节点使用softmax分类器。分类器采用关系图卷积网络(R-GCN)提供的节点表示,并预测标签。该模型包括GCN参数,通过优化交叉熵损失来学习。
        我们的链接预测模型可以看作是一个自动编码器,它由(1)一个编码器:一个产生实体潜在特征表示的GCN编码,和(2)一个解码器:一个利用这些表示来预测标记边缘的张量分解模型。虽然原则上解码器可以依赖于任何类型的因子分解(或一般来说任何评分函数),我们使用最简单和最有效的因子分解方法之一:DistMult [11]。我们观察到,我们的方法在具有挑战性的FB15k-237数据集[12]上实现了显著的改进,以及在FB15k和WN18上的竞争性能。在其他基线中,我们的模型优于因子分解的直接优化。这一结果表明,邻域的显式建模有利于恢复知识库中缺失的事实。
        我们的主要贡献如下:据我们所知,我们第一个证明了GCN框架可以应用于关系数据建模,特别是链接预测和实体分类任务。其次,我们引入了参数共享和加强稀疏性约束的技术,并使用它们来将R-GCNs应用于具有大量关系的多重图。最后,我们展示了因子分解模型的性能,在DistMult的例子中,可以通过用编码器模型丰富它们来显著提高,该编码器模型在关系图中执行信息传播的多个步骤。

2神经关系建模


        我们引入以下符号:我们用节点(实体)v_{i}\in \nu和标记边(关系)\left ( v_{i} ,r,v_{j}\right )\in \varepsilon表示有向和标记的多图G=(\upsilon ,\varepsilon ,R),其中r ∈ R是关系类型。


2.1关系图卷积网络


        我们的模型主要是作为在局部图邻域[13,14]上运行的GCNs到大规模关系数据的扩展。这些方法和相关方法,如图形神经网络[15],可以理解为简单可微消息传递框架的特殊情况[16]:

其中h_{i}^{(l)}\in \mathbb{R}^{d^{(t)}}是神经网络第l层中节点v_{i}的隐藏状态,d^{(l)}是该层表示的维数。g_{m}(\cdot ,\cdot )形式的传入消息被累积并通过元素方式激活函数σ(·)传递,例如ReLU(·) = max(0,·),M_{i}表示节点v_{i}的传入消息集,并且通常被选择为与传入边集相同。g_{m}(\cdot ,\cdot )通常被选择为(消息特定的)类神经网络函数或简单的线性变换g_{m}(h_{i} ,h_{j} ) = Wh_{j},权重矩阵为W,如[14]所示。这种类型的变换在积累和编码来自局部结构化邻域的特征方面非常有效,并在图形分类[13]和基于图形的半监督学习[14]等领域带来了显著的改进。
        受这些架构的启发,我们定义了以下简单的传播模型,用于计算关系(有向和有标记)多图中由v_{i}表示的实体或节点的正向更新:
 
其中N_{i}^{r}表示关系r ∈ R下节点i的邻居索引指标集,c_{i,r}是一个特定于问题的规范化常数,可以预先学习或选择(如c_{i,r}=\left | N_{i}^{r} \right |)。
        直观地,等式(2)通过归一化和累积相邻节点的变换特征向量。选择仅依赖于相邻节点的Wh_{j}形式的线性变换具有关键的计算优势:(1)我们不需要存储可能需要大量内存的中间基于边缘的表示,以及(2)它允许我们使用高效的稀疏密集O(|E|)矩阵乘法以矢量化形式实现等式2,类似于[14]。不同于常规的几何控制网络GCNs,我们引入了特定于关系的变换,即依赖于边的类型和方向。为了确保l+1层的节点表示也能被l层的相应表示所通知,我们向数据中的每个节点添加一个特殊关系类型的单个自连接。
        神经网络层更新包括对图中的每个节点并行评估(2)。可以堆叠多个层,以允许跨多个关系步骤的依赖性。我们称这个图形编码器模型为关系图形卷积网络(R-GCN)。图1描述了R-GCN模型中单个节点更新的计算图
 
图1。用于计算RGCN模型中单个图形节点/实体(红色)更新的图表。来自相邻节点(深蓝色)的激活(d维向量)被收集,然后针对每种关系类型分别进行变换(对于入边和出边)。所得到的表示(绿色)被累加成一个(归一化的)和,并通过一个激活函数(如ReLU)传递。这种每个节点的更新可以与整个图中的共享参数并行计算。用每节点损失函数描述实体分类的GCN模型。链路预测模型,带有一个GCN编码器(散布在全连接/密集层中)和一个距离解码器。(彩图在线)


2.2正则化


        将(2)应用于高度多关系数据的一个核心问题是图中参数数量和关系数量的快速增长。在实践中,这很容易导致对稀有关系的过度拟合和过大尺寸的模型。解决这些问题的两个直观策略是在权重矩阵之间共享参数,以及在权重矩阵中实施稀疏性以限制参数的总数。
        针对这两种策略,我们分别介绍了两种正则化R-GCN层权重的方法:基分解和块对角分解。通过基分解,每个W_{r}^{(l)}定义如下:

即作为基变换V_{b}^{(l)}\in \mathbb{R}^{d^{(l+1)}\times d^{(l)}}与系数a_{rb}^{(l)}的线性组合,使得只有系数依赖于r。
        在块对角分解中,我们让每个W_{r}^{(l)}通过一组低维矩阵上的直接和来定义:


 
因此,W_{r}^{(l)}是块对角矩阵:


 
注意,对于B = d,每个Q的维数为1,W_{r}}变成对角矩阵。块对角分解是解码器中使用的对角稀疏性约束的推广,例如DistMult [11]。
        基函数分解(3)可以看作是不同关系类型之间有效的权重分配形式,而块分解(4)可以看作是对每种关系类型的权重矩阵的稀疏性约束。块分解结构编码了一种直觉,即潜在特征可以被分组到变量组中,这些变量组在组内比在组间耦合得更紧密。两种分解都减少了学习高度多关系数据(如现实知识库)所需的参数数量。
        然后,整个GCN模型采用以下形式:我们堆叠(2)中定义的L层——前一层的输出是下一层的输入。如果不存在其他特征,则第一层的输入可以被选择作为图中每个节点的唯一的热点向量。对于块表示,我们通过单个线性变换将这个单热矢量映射到密集表示。虽然在这项工作中,我们只考虑无特征的方法,我们注意到,GCN型模型可以纳入预先定义的特征向量[14]


3 实体分类


        对于节点(实体)的(半)监督分类,我们简单地堆叠形式(2)的R-GCN层,在最后一层的输出上具有softmax(·)激活(每个节点)。我们最小化所有标记节点上的以下交叉熵损失(同时忽略未标记节点):


 
其中,Y是具有标签的节点索引集,h_{ik}^{(L)}是第i个标签节点的网络输出的第k个条目。t_{ik}表示其各自的地面真相标签。实际上,我们使用(整批)梯度下降技术训练模型。该模型的示意图如图1b所示.

4 链接预测


       链接预测处理新事实的预测(即三元组(主体、关系、对象))。形式上,知识库由一个有向的、标记的图G = (V,E,R)表示。我们只得到一个不完全子集\widehat{E},而不是完整的边集E。任务是将分数f(s,r,o)分配给可能的边(s,r,o),以确定这些边属于E的可能性。

        为了解决这个问题为,我们引入了一个由实体编码器和评分函数(解码器)组成的图形自动编码器模型(见图1c)。编码器将每个实体v_{i}\in V映射到实值向量e_{i}\in \mathbb{R}^{d}。解码器依靠顶点表示重建图的边;换句话说,它通过函数s :\mathbb{R}^{d}\times R\times \mathbb{R}^{d}\rightarrow \mathbb{R} 对(主体、关系、客体)进行三重评分。大多数现有的链接预测方法(例如,张量和神经因子分解方法[11,17–20])都可以在这个框架下进行解释。我们工作的重要特点是依赖编码器。尽管大多数以前的方法对每一个v_{i}\in V在训练中直接优化的向量使用单个实值向量e_{i},但我们通过e_{i}=h_{i}^{(L)}的R-GCN编码器计算表示,类似于[21]中针对未标记无向图引入的图自动编码器模型。

        在我们的实验中,我们使用DistMult因式分解[11]作为评分函数,当单独使用时,它在标准链路预测基准上表现良好。在DistMult中,每一个关系r都与一个对角矩阵R_{r} \in \mathbb{R}^{d\times d}相关联,三元组(s,r,o)的得分为
 
        如同在因子分解[11,20]的先前工作中一样,我们用负采样来训练模型。对于每个观察到的例子,我们采样-ω。我们通过随机腐蚀每个正面例子的主语或宾语来取样。我们针对交叉熵损失进行了优化,以推动模型将可观察到的三倍分数提升至高于负三倍的分数:
 
其中,T是实三元组和受损三元组的总集合,l是逻辑sigmoid函数,y是指标集,正三元组为y = 1,负三元组中y=0。

5 经验评估


5.1实体分类实验

        这里,我们考虑在一个知识库中对实体进行分类的任务。例如,为了推断一个实体的类型(如个人或公司),一个成功的模型需要推理这个实体与其他实体的关系。

数据集。我们在资源描述框架[22]格式的四个数据集[3]上评估我们的模型:AIFB、MUTAG、BGS和AM。这些数据集中的关系不一定需要编码有向的主-客体关系,但也用于编码给定实体的特定特征的存在或不存在。在每个数据集中,要分类的目标是表示为节点的一组实体的属性。数据集的确切统计数据可以在表1中找到。关于数据集的更详细描述,读者可以参考[22]。我们删除了用于创建实体标签的关系:AIFB的员工和隶属关系、穆塔格的员工和隶属关系、BGS的员工和隶属关系以及调幅的对象类别和材料。

        对于我们论文中描述的实体分类基准,不同出版物之间的评估过程略有不同。为了消除这些差异,我们使用[22]中的标准测试/训练分裂,以统一的方式重复基线。我们仅对训练集进行超参数优化,在为每个基线选择超参数后,对测试集进行单次评估。这解释了为什么我们报告的数字与原始出版物中的数字略有不同(在原始出版物中报告了交叉验证的准确性)。
表1 .每个数据集的实体、关系、边和类的数量,以及标记实体的数量。标记的表示具有标签并且要分类的实体子集


 
基线。作为我们实验的基线,我们比较了RDF2Vec嵌入[23],WeisfeilerLehman内核(WL) [24,25]和手工设计的特征提取器[26]的最新分类结果。专长从每个标记实体的入度和出度(每个关系)组装特征向量。RDF2Vec提取标记图上的行走,然后使用Skipgram [27]模型对其进行处理,以生成实体嵌入,用于后续分类。关于这些基线方法的深入描述和讨论,请参见[23]。所有的实体分类实验都是在64GB内存的CPU节点上运行的。
        对于WL,我们使用芥子库中Weisfeiler-Lehman子树核的树变体。4对于RDF2Vec,我们使用由[23]的作者提供的实现,该实现建立在芥子的基础上。在这两种情况下,我们提取实例节点的显式特征向量,这些节点由线性SVM分类。对于MUTAG任务,我们的预处理不同于[23,25]中使用的预处理,在[23,25]中,对于给定的目标关系(s,r,o),连接s到o的所有三元组都被移除。由于o是MUTAG数据中的一个布尔值,人们可以从仍然存在的其他布尔关系中推断出处理后的标签。芥末文档中现在提到了这个问题。在我们的预处理中,我们只移除编码目标关系的特定三元组。
结果。表2中的所有结果都在[22]的列车/测试基准分割中报告。我们进一步留出20%的训练集作为超参数调整的验证集。对于R-GCN,我们报告了一个具有16个隐藏单元(10个用于调幅)、基函数分解(等式3)的两层模型的性能,并使用亚当[28]使用0.01的学习率对50个时期进行了训练。归一化常数选择为ci,r= |Nr i|。

        基线的超参数是根据[23]中的最佳模型性能选择的,即WL: 2(树深度),3(迭代次数);RDF2Vec: 2 (WL树深度)、4 (WL迭代)、500(嵌入大小)、5(窗口大小)、10 (SkipGram迭代)、25(负样本数)。我们在(原始训练集的)80/20训练/验证分割上优化了SVM正则化常数C∑{ 0.001,0.01,0.1,1,10,100,1000}。

        对于R-GCN,我们基于验证集的性能选择第一层权重Cl2∑{ 0,5 10 4 }和基函数B∑{ 0,10,20,30,40}的数量的l2惩罚,其中B = 0表示没有基分解。块分解没有改善结果。否则,超参数的选择如下:50(纪元数)、16(隐藏单元数)和ci,r= |Nr i|(归一化常数)。我们不使用辍学。对于调幅,我们为GCN减少了10个隐藏单元,以减少内存占用。所有的实体分类实验都是在64GB内存的CPU节点上运行的。
表2 .实体分类导致基于特征的基线(详见正文)、WL [24,25]、RDF2Vec [23]和R-GCN(本工作)的准确性(10次运行的平均和标准误差)。测试性能在[22]提供的列车/测试集分割上报告


        我们的模型在AIFB和AM上实现了最先进的结果。为了解释穆塔格和BGS在性能上的差距,理解这些数据集的本质是很重要的。MUTAG是一个分子图数据集,后来被转换成RDF格式,其中的关系要么指示原子键,要么仅仅指示某个特征的存在。BGS是一个具有分层特征描述的岩石类型数据集,该数据集被类似地转换为RDF格式,其中关系对某个特征或特征分层的存在进行编码。MUTAG和BGS中的标记实体仅通过编码特定特征的高度中枢节点连接。

        我们推测,来自相邻节点的聚合消息的标准化常数的固定选择是这种行为的部分原因,这对于高程度的节点来说尤其成问题。在未来的工作中,一个潜在的有希望克服这种限制的方法是引入一种注意力机制,即用依赖于数据的注意力权重a_{ij,r}来代替归一化常数1/c_{i,r},其中\sum_{j,r}a_{ij,r}=1

5.2链接预测实验

        如前一节所示,R-GCNs是关系数据的有效编码器。现在,我们将编码器模型与评分函数(我们称之为解码器,见图1c)相结合,为知识库中的链接预测对候选三元组进行评分。
数据集。链接预测算法通常在FB15k和WN18上评估,FB15K是关系数据库Freebase的子集,WN18是WordNet的子集。在[12]中,在两个数据集中观察到了一个严重的缺陷:反向三元组对的存在。逆三重态对t=(e_{1},r,e_{2})t'=(e_{2},r^{-1},e_{1}),在训练集中存在t,在测试集中存在t‘。。这将很大一部分预测任务简化为记忆受影响的三元组对,并且使用线性分类器和观察到的训练关系特征的简单基线链接专长被证明在很大程度上优于现有系统。Toutanova和陈提出了一个简化的FB15k-237数据集,去掉了所有这样的反向三元组对。因此,我们选择FB15k-237作为我们的主要评估数据集。由于FB15k和WN18仍被广泛使用,我们还使用[29]中介绍的拆分方法将这些数据集的结果包括在内(表3)。

表3 .三个数据集的实体数量和关系类型以及每次分割的边数。


 
基线。两个实验的一个共同基线是直接优化DistMult [11]。众所周知,这种因子分解策略在标准数据集上表现良好,而且对应于我们模型的一个版本,该版本使用固定实体嵌入来代替第4节中描述的R-GCN编码器。作为第二个基线,我们添加了[12]中提出的简单的基于邻居的链接专长算法。我们进一步比较了FB15k和WN18的两个最先进的链路预测模型ComplEx [20]和HolE [30]。ComplEx通过将DistMult推广到复数域来简化非对称关系的建模,而HolE用循环相关代替了向量矩阵乘积。最后,我们包括了与两个经典算法的比较——CP[31]和TransE [29]。

表4 .FB15k-237的结果,FB15k的简化版本,去掉了有问题的反向关系对。CP、TeeE和ComplEx使用[20]发布的代码进行评估,而HolE使用[30]发布的代码进行评估。R-GCN+表示R-GCN和DistMult之间的系综。


 
结果。我们使用两个常用的评估指标来提供结果:平均倒数排名(MRR)和点击率(H@n)。根据[29],可以在原始设置和过滤设置中计算这两个指标。我们报告过滤和原始MRR,并在1,3和10过滤点击。

        我们在各自的验证分割上评估超参数选择。我们发现了一个归一化常数,定义为c_{i,r}=c_{i}=\sum_{r}|N_{i}^{r}|,即跨关系类型应用,以达到最佳效果。对于FB15k和WN18,我们使用具有两个基函数的基分解(等式3)和具有200维嵌入的单个编码层来报告结果。对于FB15k-237,我们发现块分解(等式4)表现最佳,使用块尺寸为5 × 5和500维嵌入的两层。我们通过归一化前应用的边缘丢失来正则化编码器,自循环的丢失率为0.2,其他边缘的丢失率为0.4。我们对解码器应用l2正则化,惩罚为0.01。

        我们使用Adam优化器[28],学习率为0.01。对于基线和其他因子分解,我们发现[20]中的参数(FB15k-237上的维度除外)效果最佳,但为了使系统具有可比性,我们保持了相同数量的负样本(即ω = 1)。我们对基线和模型都使用了整批优化。
        在FB15k上,与R-GCN模型的设计相反,以逆关系形式的局部上下文被期望支配因子分解的性能。初步实验显示,在上下文知识丰富的高度顶点上,GCN仍然提高了性能。由于该数据集的两个模型似乎是互补的,我们试图将两者的优势结合成一个单一的模型R-GCN+: f(s,r,t)_{R-GCN+}=\alpha f(s,r,t)_{R-GCN}+(1+\alpha )f(s,r,t)_{DistMult},在FB15k开发数据上选择α = 0.4。为了便于与R-GCN进行公平的比较,我们对GCN河的每个组成部分使用了一半大小的嵌入。在FB15k和WN18上,本地和远程信息都可以提供强大的解决方案,我们预计R-GCN+的表现将优于每个单独的模型。在局部信息不太显著的FB15k-237上,我们不期望组合模型显著优于纯RGCN模型。
        在表4中,我们显示了FB15k-237的结果,其中(如前所述)反向关系对已被删除,链接专长基线未能推广5。在这里,我们的R-GCN模型比DistMult基线高出29.8%的大幅度,突出了单独编码器模型的重要性。正如我们之前的分析所预期的那样,GCN和GCN+在这个数据集上显示出相似的性能。

        尽管依赖于在没有编码器的情况下使用时表现出相对较弱性能的距离多解码器,但R-GCN模型进一步优于其他因子分解方法。不同的纯解码器模型之间的高方差表明,通过将R-GCN与通过验证选择的特定任务解码器相结合,可以提高性能。由于解码器的选择与我们编码器模型的开发是正交的,我们将此作为未来工作的一个有前途的途径。在表5中,我们在FB15k和WN18上评估了R-GCN模型和组合模型。在FB15k和WN18数据集上,R-GCN和R-GCN+的性能都优于DistMult基线,但与LinkFeat算法相比,像所有其他系统一样,在这两个数据集上的性能较差。这一基线的有力结果突出了反向关系对这些数据集的高性能解决方案的贡献。

6 相关工作

6.1关系建模

我们用于链路预测的编码器-解码器方法依赖于解码器中的DistMult[11],这是RESCAL分解[32]的一种特殊且更简单的情况,在多关系知识库的上下文中比原始RESCAL更有效.

表5。FB15k和WN18数据集上的结果。标有(*)的结果取自[20]。结果标记(**)取自[30]。


 
在SRL的背景下,已经提出并研究了许多替代因子分解,包括(双)线性和非线性因子分解(例如[17,20,29,30,33,34])。这些方法很多都可以看作是CP或Tucker等经典张量分解方法的修改或特例;关于张量分解文献的概述,我们请读者参考[35]。
         最近,将实体之间的路径合并到知识库中受到了极大的关注。我们可以将以前的工作大致分为(1)创建辅助三元组的方法,然后将其添加到因子分解模型的学习目标中[36,37];(2)在预测边缘时使用路径(或步行)作为特征的方法[18];或者(3)同时做两件事[19,38]。第一个方向在很大程度上与我们的方向正交,因为我们也期望通过在我们的损失上增加类似的项来改善(换句话说,扩展我们的解码器)。第二条研究线更有可比性;R-GCNs为这些基于路径的模型提供了一种计算成本更低的替代方案。直接比较有些复杂,因为基于路径的方法使用不同的数据集(例如,来自知识库的次采样行走集)。

6.2图形上的神经网络

        我们的R-GCN编码器模型与图形上的神经网络领域的许多工作密切相关。它的主要动机是为了适应大规模和高度多关系数据的全球合作网络[13,14,39,40],这是现实知识库的特征。

        该领域的早期工作包括图形神经网络(GNN) [15]。对最初的GNN提出了许多扩展,最著名的是[41,42],两者都使用门控机制来促进优化。

        R-GCNs还可以被视为消息传递神经网络的一个子类[16],它包含了许多以前的神经模型,包括在可微分的消息传递解释下的GCNs。

        正如在第5节中提到的,我们在本文中没有实验邻域的二次抽样,这种选择将我们的训练算法限制在整批下降。包括[43–45]在内的最近工作已经对基于图形的神经网络的各种子采样策略进行了实验,证明了有希望的结果。

7结论


        我们引入了关系图卷积网络,并在两个标准统计关系建模问题(链接预测和实体分类)的背景下证明了它们的有效性。对于实体分类问题,我们已经证明了R-GCN模型可以作为一个有竞争力的、端到端可训练的基于图的编码器。对于链路预测,以DistMult因子分解为解码器的R-GCN模型优于因子分解模型的直接优化,在标准链路预测基准上取得了有竞争力的结果。用R-GCN编码器丰富因子分解模型被证明对具有挑战性的FB15k-237数据集特别有价值,比仅使用解码器的基线提高了29.8%。

        我们的工作有几种扩展方式。例如,图形自动编码器模型可以与其他因子分解模型结合考虑,如ConvE [34],后者更适合于建模不对称关系。在RGCNs中集成实体特征也很简单,这对于链接预测和实体分类问题都是有益的。为了解决我们的方法的可伸缩性,探索子采样技术是值得的,如在[43]中。最后,用一种依赖数据的注意力机制来取代当前对相邻节点和关系类型求和的形式是有希望的。除了对知识库建模之外,R-GCNs还可以推广到其他应用中,在这些应用中,关系因子分解模型已经被证明是有效的(例如关系抽取)。
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值