【CompGCN】基于组合的多关系图卷积网络

系列文章目录

COMPOSITION-BASED MULTI-RELATIONALGRAPH CONVOLUTIONAL NETWORKS 基于组合的多关系图卷积网络


Shikhar Vashishth 1,2Soumya Sanyal1Vikram Nitin 3Partha Talukdar11Indian Institute of Science,2Carnegie Mellon University,3Columbia Universitysvashish@cs.cmu.edu, {shikhar,soumyasanyal,ppt}@iisc.ac.in,vikram.nitin@columbia.edu


摘要

Graph Convolutional Networks (GCNs) have recently been shown to be quite suc-cessful in modeling graph-structured data. However, the primary focus has beenon handling simple undirected graphs. Multi-relational graphs are a more generaland prevalent form of graphs where each edge has a label and direction associ-ated with it. Most of the existing approaches to handle such graphs suffer fromover-parameterization and are restricted to learning representations of nodes only.In this paper, we propose COMPGCN, a novel Graph Convolutional frameworkwhich jointly embeds both nodes and relations in a relational graph. COMPGCNleverages a variety of entity-relation composition operations from KnowledgeGraph Embedding techniques and scales with the number of relations. It also gen-eralizes several of the existing multi-relational GCN methods. We evaluate ourproposed method on multiple tasks such as node classification, link prediction,and graph classification, and achieve demonstrably superior results. We make thesource code of COMPGCN available to foster reproducible research.

图卷积网络 (GCN) 最近被证明在对图结构数据建模方面非常成功。然而,主要关注点是处理简单的无向图。多关系图是一种更普遍和普遍的图形式,其中每条边都有一个标签和与之相关的方向。大多数现有的处理此类图的方法都存在过度参数化的问题,并且仅限于学习节点的表示。在本文中,我们提出了 CompGCN,这是一种新颖的图卷积框架,它将节点和关系共同嵌入关系图中。 CompGCN 利用知识图嵌入技术中的各种实体关系组合操作,并随着关系的数量进行扩展。它还推广了几种现有的多关系 GCN 方法。我们在节点分类、链接预测和图分类等多项任务上评估了我们提出的方法,并取得了明显优越的结果。我们提供 CompGCN 的源代码以促进可重复的研究。


一、引言

图是最具表现力的数据结构之一,已被用来建模各种各样的问题。传统的神经网络架构,如卷积神经网络( Krizhevsky et al , 2012)和循环神经网络(霍赫赖特和施米德胡贝, 1997),仅限于处理欧几里得数据。最近,图卷积网络(GCNs)(Bruna等人,2013;Defferrard等人,2016)已被提出来解决这一缺点,并已成功应用于社交网络(Hamilton等人,2017),知识图谱(Schlichtkrull等人,2017;Shang等人,2019),自然语言处理(Marcheggiani和Titov,2017;Vashishth 等人,2018a;b;2019)、药物发现(Ramsundar等人,2019)、晶体特性预测(Sanyal等人,2018)和自然科学(Fout等人,2017)。

然而,大多数关于GCN的现有研究(Kipf&Welling,2016;汉密尔顿等人,2017 年;Velickovi’c等人,2018)专注于学习简单无向图中节点的表示。更通用和普遍的图类是多关系图1。这种图的一个值得注意的例子是知识图谱。大多数现有的基于GCN的方法来处理关系图(Marcheggiani&Titov,2017;Schlichtkrull 等人,2017 年)存在过度参数化,仅限于学习节点表示。因此,这些方法不能直接适用于需要关系嵌入向量的链接预测等任务。学习图中关系表示的初步尝试(Monti 等人,2018 年;Beck等人,2018)在节点分类和神经机器翻译等任务上显示出一些性能提升。

关于嵌入知识图谱(KG)的研究已经广泛(Nickel等人,2016年;Wang等人,2017),其中节点和关系的表示是共同学习的。这些方法仅限于使用链接预测目标学习嵌入。尽管GCN可以从特定于任务的目标(如分类)中学习,但它们的应用在很大程度上仅限于非关系图设置。因此,需要一个可以利用KG嵌入技术来学习特定于任务的节点和关系嵌入的框架。在本文中,我们提出了一种用于多关系图的新型GCN框架,它系统地利用了知识图嵌入技术的实体关系组合操作。CompGCN通过共同学习图中节点和关系的向量表示来解决先前提出的GCN模型的缺点。CompGCN 的概述如图 1 所示。我们工作的贡献可归纳如下:

  1. 我们提出了COMPGCN,一种将多关系信息整合到图卷积网络中的新框架,它利用知识边缘图嵌入技术的各种组合操作将节点和关系联合嵌入到图中。
  2. 我们证明了COMPGCN框架推广了几种现有的多关系GCN方法(命题4.1),并且还随着图中关系数量的增加而扩展(第6.3节)。
  3. 通过对节点分类、链路预测、图分类等任务的广泛实验,证明了所提方法的有效性。
    本文中使用的COMPGCN和数据集的源代码已在 http://github.com/malllabiisc/CompGCN上提供。

二、相关工作

Graph Convolutional Networks: GCN 将卷积神经网络 (CNN) 推广到非欧几里得数据。GCN首先由Bruna等人(2013)引入,后来通过光谱域中的高效局部滤波器进行扩展(Defferrard等人,2016)。使用Chebyshev多项式的GCN的一阶近似由Kipf&Welling(2016)提出。最近,还制定了几个扩展(Hamilton 等人,2017 年;Velickovi’cet al., 2018;徐等, 2019;瓦希什特等人,2019 年;亚达夫等人,2019 年)。大多数现有的GCN方法都遵循消息传递神经网络(MPNN)框架(Gilmer等人,2017)进行节点聚合。我们提出的方法可以看作是MPNN框架的实例化。但是,它专门用于关系图。
用于多关系图的GCN: Marcheggiani&Titov(2017)提出了用于关系图的GCN的扩展。但是,它们只考虑特定于方向的滤波器,而忽略由于过度参数化而导致的关系。Schlichtkrull et al. (2017) 通过提出关系特定滤波器的基和块对角分解来解决这一缺点。加权图卷积网络(Shang等人,2019)在GCN聚合期间利用可学习的关系特定标量权重。虽然这些方法在节点分类和链路预测方面显示出性能提升,但它们仅限于嵌入图的节点。与我们的工作同时代,Ye等人(2019)还提出了GCN的扩展,用于在多关系图中嵌入节点和关系。然而,我们提出的方法是一个更通用的框架,可以利用任何KG组成算子。我们将他们的方法与第 6.1 节中的方法进行比较。
Knowledge Graph Embedding: 知识图谱嵌入是一个被广泛研究的领域(Nickel等人,2016;Wang 等人,2017 年)在链接预测和问答等任务中的应用(Bordes 等人,2014 年)。大多数 KG 嵌入方法定义了一个分数函数,并训练节点和关系嵌入,以便为有效的三元组分配比无效三元组更高的分数。根据评分函数的类型,KG嵌入方法被归类为平移(Bordes等人,2013;Wang等人,2014b),基于语义匹配(Yang等人,2014;Nickel等人,2016)和基于神经网络(Socher等人,2013;德特默斯等人,2018 年;瓦希什特等人,2019)。在我们的工作中,我们用所有三种类型的方法评估了COMPGCN在链路预测方面的性能。

请添加图片描述

三、背景

在本节中,我们将简要概述无向图的图卷积网络( GCN )及其对有向关系图的扩展。

GCN on Undirected Graphs: 给定一个图 G = ( V , E , X ) G = (V , E, X) G=VEX ,其中 V V V 表示顶点集, E E E 是边的集合, X ∈ R ∣ V ∣ ∗ d 0 X \in\mathbb R^{|V|*d_0} XRVd0表示每个节点的 d 0 d_0 d0维输入特征。从单个GCN层获得的节点表示定义为: H = f ( A ^ X W ) H = f(\hat{A}X W) H=f(A^XW)。这里, A ^ = D ˉ − − 1 2 ( A + I ) D ˉ D D − 1 2 \hat A = \bar D^{-\frac{-1}{2}}(A + I)\bar D^DD{-\frac{1}{2}} A^=Dˉ21(A+I)DˉDD21是添加了自连接的归一化邻接矩阵, D ˉ \bar D Dˉ定义为 D ˉ i i = ∑ j ( A + I ) i j \bar D_{ii}= \sum_j(A + I)_{ij} Dˉii=j(A+I)ij。模型参数用 W ∈ R d 0 ∗ d 1 W \in\mathbb R^{d_0*d_1} WRd0d1 表示, f f f 是某个激活函数。GCN 表示 H H H 对图中每个节点的近邻域进行编码。为了捕获图中的多跳依赖关系,可以堆叠多个GCN层,一个层在另一个层之上,如下所示: H k + 1 = f ( A ^ H k W k ) H^{k+1}= f(\hat A H^k W^k) Hk+1=f(A^HkWk),其中 k k k表示层数, W k ∈ R d k ∗ d k + 1 W^k \in\mathbb R^{d_k*d_{k+1}} WkRdkdk+1是特定于层的参数, H 0 = X H^0= X H0=X

GCN on Multi-Relational Graphs: 对于多关系图 G = ( V , R , E , X ) G = (V , R, E, X) G=VREX,其中 R R R 表示关系集,每条边(u, v, r) 表示从节点 u u u v v v 的关系 r ∈ R r\in R rR存在。Marcheggiani&Titov(2017)设计的GCN公式基于有向边缘中的信息沿两个方向流动的假设。因此,对于每个边 ( u , v , r ) ∈ E (u, v, r)\in E (uvr)E G G G中包含一个反边 ( v , u , r − 1 ) (v, u, r^{-1}) (vur1)。在有向GCN的 k k k层之后得到的表示由下式给出:
H k + 1 = f ( A ^ H k W r k ) (1) H^{k+1}= f\left(\hat A H^k W_r^k\right) \tag{1} Hk+1=f(A^HkWrk)(1)

在这里, W r k W^k_r Wrk表示模型的关系特定参数。然而,上述公式导致随着关系数量的增加而过度参数化,因此,Marcheggiani&Titov (2017) 使用特定于方向的权重矩阵。Schlichtkrull et al. (2017) 通过提出 W r k W^k_r Wrk的基和块对角线分解来解决过度参数化问题。

四、CompGCN 细节

在本节中,我们将详细介绍我们提出的方法CompGCN。整体架构如图 1 所示。我们用 G = ( V , R , E , X , Z ) G = (V , R, E, X, Z) G=VREXZ表示一个多关系图,如第3节中所定义,其中 Z ∈ R ∣ R ∣ ∗ d 0 Z\in\mathbb R^{|R|*d_0} ZRRd0表示初始关系特征。我们的模型受到使用切比雪夫多项式的GCN的一阶近似的激励(Kipf&Welling,2016)。继Marcheggiani & Titov(2017)之后,我们还允许定向边缘中的信息沿两个方向流动。因此,我们用相应的反边和配比扩展 E 和 R,即
ϵ ′ = ϵ ∪ { ( v , u , r − 1 ) ∣ ( v , u , r ) ∈ ϵ } ∪ { ( u , u , T ) ∣ u ∈ V } , \epsilon^\prime = \epsilon \cup \{(v,u,r^{-1})|(v,u,r)\in\epsilon \} \cup\{ (u,u,T)| u\in V\}, ϵ=ϵ{(v,u,r1)(v,u,r)ϵ}{(u,u,T)uV},
并且 R ′ = R ∪ R i n v ∪ { T } R^\prime = R\cup R_{inv}\cup\{T\} R=RRinv{T}, 这里 R i n v = { r − 1 ∣ r ∈ R } R_{inv}=\{r^{-1}|r\in R\} Rinv={r1rR}表示反关系并 T T T指示自循环

4.1 基于关系的组合

与大多数只嵌入图中节点的现有方法不同,CompGCN 学习 d d d 维表示 h r ∈ R d , ∀ r ∈ R hr\in R^d,\forall r \in R hrRdrR 以及节点嵌入 h v ∈ R d , ∀ v ∈ V . h_v\in R^d,\forall v \in V. hvRdvV. 将关系表示为向量缓解了在关系图上应用 GCN 时过度参数化的问题。此外,它允许CompGCN利用任何可用的关系特征 ( Z ) (Z) Z作为初始表示。为了将关系嵌入纳入GCN公式,我们利用知识图谱嵌入方法中使用的实体关系组合操作(Bordes等人,2013;Nickel等人,2016),其形式为
e o = ∅ ( e s , e r ) e_o= \varnothing(e_s,e_r) eo=(es,er)

这里, ∅ : R d × R d → R d \varnothing:\mathbb R^d\times \mathbb R^d\rightarrow\mathbb R^d :Rd×RdRd使一个组合运算符, s , r , o s,r,o s,r,o表示知识图谱中的主语,关系和谓语, e ( ⋅ ) ∈ R d e_{(·)}\in\mathbb R^d e()Rd表示他们相应的嵌入。在本文中,我们将自己限制在非参数化运算上,如减法(Bordes等人,2013),乘法(Yang等人,2014)和循环相关(Nickel等人,2016)。然而,CompGCN 可以扩展到参数化操作,如神经张量网络 (NTN)(Socher 等人,2013 年)和 Conv E(Dettmers 等人,2018 年)。我们将他们的分析推迟到未来的工作中。
正如我们在第 6 节中所示,组合操作的选择对于决定学习嵌入的质量很重要。因此,可以采用未来开发的知识图谱的卓越组合操作来进一步提高CompGCN的性能。

4.2 更新CompGCN的方程

第 3 节中定义的 GCN 更新方程(方程 1)可以重写为
h v = f ( ∑ ( u , r ) ∈ N ( v ) W r h u ) , h_v = f\left(\sum_{(u,r)\in N(v)}W_rh_u\right), hv=f (u,r)N(v)Wrhu ,
其中 N ( v ) N(v) N(v) v v v的一组直邻,表示其输出边。由于该公式存在过度参数化,因此在 CompGCN 中,我们执行相邻节点 u u u 相对于其关系 r r r 的复合 ( ∅ ) (\varnothing) (),如上所述。这允许我们的模型是关系感知的,同时是线性的 ( O ( ∣ R ∣ d ) ) (O(|R|d)) (O(Rd))在特征维度的数量中。此外,为了以不同的方式处理原始边缘、逆边和自边,我们为每个边缘定义了单独的过滤器。CompGCN 的更新公式如下:
h v = f ( ∑ ( u , r ) ∈ N ( v ) W λ ( r ) ∅ ( x u , z r ) ) , (2) h_v = f\left(\sum_{(u,r)\in N(v)}W_{\lambda(r)}\varnothing(x_u,z_r)\right), \tag{2} hv=f (u,r)N(v)Wλ(r)(xu,zr) ,(2)

其中 x u , z r x_u, z_r xuzr分别表示节点 u u u 和关系 r r r 的初始特征, h v h_v hv 表示节点 v v v 的更新表示, W λ ( r ) ∈ R d 1 × d 0 W_{\lambda(r)}\in\mathbb R^{d_1\times d_0} Wλ(r)Rd1×d0是关系类型特定的参数。在 CompGCN 中,我们使用方向特定权重,即 λ ( r ) = d i r ( r ) \lambda(r) = dir(r) λ(r)=dir(r),给出如下:
W d i r ( r ) = { W O , r ∈ R W I , r ∈ R i n v W S , r = T ( s e l f − l o o p ) (3) W_{dir(r)} = \begin{cases}\tag{3} W_O, r\in R \\W_I, r\in R_{inv} \\W_S, r=T(self-loop) \end{cases} Wdir(r)= WO,rRWI,rRinvWS,r=T(selfloop)(3)
此外,在 CompGCN 中,在方程 2 中定义的节点嵌入更新之后,关系嵌入也按如下方式转换:
h r = W r e l z r (4) h_r = W_{rel} \textbf z_r \tag{4} hr=Wrelzr(4)
其中 W r e l ∈ R d 1 × d 0 W_{rel}\in\mathbb R^{d1\times d0} WrelRd1×d0 是一个可学习的转换矩阵,它将所有关系投影到与节点相同的嵌入空间,并允许它们在下一个 CompGCN 层中使用。在表1中,我们展示了CompGCN与其他现有方法在特征和参数复杂性方面的对比。

表2:将COMPGCN简化为几种现有的图卷积方法。这里,kris 关系特定标量,Wkrde表示每个关系的单独权重,Wkdir(r) 如公式 3 中所定义。請參閱4.1提案了解更多詳情。
表2:将COMPGCN简化为几种现有的图卷积方法。这里, α r k \alpha^k_r αrk是特定于关系的标量, W r k W^k_r Wrk表示每个关系的单独权重, W d i r ( r ) k W^k_{dir(r)} Wdir(r)k如公式3中所定义。请参阅4.1提案了解更多详情。

随着关系数量的增加 为了确保CompGCN随着关系数量的增加而扩展,我们使用Schlichtkrull等人(2017)中提出的基础公式的变体。它们不是为每个关系独立定义嵌入,而是表示为一组基向量的线性组合。形式上,设 { v 1 , v 2 , . . . , v β } \{v_1, v_2, ..., v_{\beta }\} {v1v2...vβ}是一组可学习的基础向量。然后,初始关系表示如下:
z r = ∑ b = 1 β α b r v b z_r = \sum_{b=1}^{\beta}\alpha_{br}\textbf v_b zr=b=1βαbrvb
在这里, α b r ∈ R \alpha_{br}\in\mathbb R αbrR 是关系和基特定的可学习标量权重。

论与Relatinal-GCN的比较 请注意,这与Schlichtkrull等人(2017)中的基础公式不同,其中为每个GCN层定义了一组单独的基矩阵。相比之下,CompGCN 使用嵌入向量而不是矩阵,并且仅为第一层定义基向量。后面的层根据公式4通过变换共享关系。这使得我们的模型比Relatinal-GCN 更有效的参数。

我们可以将公式 2 的公式扩展到具有 k 堆叠 CompGCN 层的情况。设 h v k + 1 h^{k+1}_v hvk+1表示在 k k k 层之后获得的节点 v v v 的表示,定义为
h v k + 1 = f ( ∑ ( u , r ) ∈ N ( v ) W λ ( r ) k ∅ ( h u k , h r k ) ) (5) h_v^{k+1} = f\left(\sum_{(u,r)\in N(v)}W^k_{\lambda(r)}\varnothing(h_u^k,h_r^k)\right) \tag{5} hvk+1=f (u,r)N(v)Wλ(r)k(huk,hrk) (5)
类似地,设 h r k + 1 h^{k+1}_r hrk+1 表示 k k k 层后关系 r r r 的表示。然后
h v k + 1 = W r e l k h r k h_v^{k+1}=W_{rel}^k h_r^k hvk+1=Wrelkhrk
这里, h v 0 和 h r 0 h_v^0和h_r^0 hv0hr0分别是节点 ( x v ) 和关系 ( z r ) (x_v)和关系(z_r) (xv)和关系(zr)的初试特征。

Proposition 4.1. CompGCN概括了以下图卷积的方法:
Kipf-GCN (Kipf & Welling, 2016),
Relational GCN (Schlichtkrull et al., 2017),
Directed GCN (Marcheg-giani & Titov, 2017),
and Weighted GCN (Shang et al., 2019).

证明。对于Kipf-GCN,这可以通过在公式5中使权重 ( W λ ( r ) ) (W_{\lambda(r)}) Wλ(r)和组合函数 ( ∅ ) (\varnothing) 关系无关来轻松获得,即 W λ ( r ) = W 和 ∅ ( h u , h r ) = h u W_{\lambda(r)}= W和\varnothing(h_u,h_r)= h_u Wλ(r)=W(hu,hr)=hu对于其他方法,可以获得类似的还原,如表2所示。

五、实验设置

5.1 评价任务

我们的实验,我们在以下任务上评估CompGCN。

  • Link Prediction 链接预测是根据知识图谱中的已知事实推断缺失事实的任务。在我们的实验中,我们利用FB15k-237(Toutanova&Chen,2015)和WN18RR(Dettmers等人,2018)数据集进行评估。在Bordes等人(2013)之后,我们使用过滤设置进行评估并报告平均倒数排名(MRR),平均排名(MR)和Hits@N。
  • Node Classification 节点分类是根据节点特征及其连接预测图形中节点标签的任务。与Schlichtkrull等人(2017)类似,我们在MUTAG(Node)和AM(Ristoski&Paulheim,2016)数据集上评估了COMPGCN。
  • Graph Classification 图分类,其中,给定一组图及其相应的标签,目标是学习每个图的表示,该表示被馈送到分类器进行预测。我们评估2生物信息学数据集:MUTAG(图)和PTC(Yanardag&Vishwanathan,2015)。
    附录A.2提供了所用数据集的汇总统计数据。
5.2 基线

在所有任务中,我们与以下GCN关系图方法进行了比较:(1)Relational-GCN(R-GCN)(Schlichtkrull等人,2017),它使用特定于关系的权重矩阵,这些矩阵被定义为一组基矩阵的线性组合。(2)Directed-GCN(D-GCN)(Marcheggiani&Titov,2017)具有单独的权重矩阵,用于传入边缘,传出边缘和自循环。它还具有特定于关系的偏见。(3)Weighted-GCN(W-GCN)(Shang等人, 2019)为每个关系分配一个可学习的标量权重,并将传入的“消息”乘以该权重。除此之外,我们还与下面提到的几个特定于任务的基线进行了比较。

链接预测: 为了评估CompGCN,我们与几个非神经和神经基线进行比较:Trans E Bordes等人(2013),Dist Mult(Yang等人,2014),Compl Ex(Trouillon等人,2016),R-GCN(Schlichtkrull等人,2017),KBGAN(Cai&Wang,2018),Conv E(Dettmers等人,2018),Conv KB(Nguyen等人,2018),SACN(Shang等人, 2019)、Hyp ER(Balaevi’c等人,2019),Rotat E(Sun等人,2019),Con v R(Jiang等人,2019)和VR-GCN(Ye等人,2019)。

节点和图分类: 对于节点分类,遵循Schlichtkrull等人(2017),我们与Feat(Paulheim&Fmkranz,2012),WL(Shervashidze等人,2011)和RDF2Vec(Ristoski&Paulheim,2016)进行比较。最后,对于图分类,我们评估了PACHYSAN(Niepert等人,2016),Deep Graph CNN(DGCNN)(Zhang等人,2018)和图同构网络(GIN)(Xu等人,2019)。

六、结果

在本节中,我们尝试回答以下问题。

Q1. 与现有方法相比,CompGCN 在链路预测方面表现如何?(6.1)
Q2. 在CompGCN中使用不同的GCN编码器和选择组合运算器对链路预测性能有什么影响?(6.1)
Q3. CompGCN 是否随图中的关系数量而缩放?(6.3)
Q4. CompGCN 如何执行节点和图分类任务?(6.4)

COMPGCN 和几个最新模型在 FB15k-237 和 WN18RR数据集上的链路预测性能。所有基线方法的结果都直接取自以前的论文(“-”表示缺失值)。我们发现 COMPGCN 在 FB15k-237 的 5 个指标中有 4 个指标和 WN18RR 上的 5 个指标中有 3 个指标上优于所有现有方法。有关更多详细信息,请参阅第 6.1 节。
Table 3:CompGCN 和几个最新模型在 FB15k-237 和 WN18RR数据集上的链路预测性能。所有基线方法的结果都直接取自以前的论文(“-”表示缺失值)。我们发现 CompGCN 在 FB15k-237 的 5 个指标中有 4 个指标和 WN18RR 上的 5 个指标中有 3 个指标上优于所有现有方法。有关更多详细信息,请参阅第 6.1 节。

6.1 链接预测的性能比较

在本节中,我们评估了 CompGCN 的性能以及第 5.2 节中列出的链路预测任务的基线方法。FB15k-237和WN18RR数据集的结果如表3所示。基线方法的分数直接取自以前的论文(Sun等人,2019;蔡和王,2018;尚等, 2019;Balaevi’c等人,2019;蒋等, 2019;叶等,2019).但是,对于 Conv KB,我们使用更正后的评估代码生成结果(Sun 等人,2019 年)。总体而言,我们发现 CompGCN 在 FB15k-237 上的 5 个指标中有 4 个指标和 WN18RR 数据集上的 5 个指标中有 3 个指标优于所有现有方法。我们注意到,性能最佳的基线 Rotat E 在复杂域中使用旋转操作。相同的操作可以在我们提出的方法的复杂变体中使用,以进一步提高其性能。我们将其推迟到未来的工作中。

6.2 不同GCN编码器在链接预测性能上的比较

接下来,我们评估使用不同的GCN方法作为编码器以及每个类别的代表性评分函数(如图2所示)的效果:Trans E(翻译),Dist Mult(基于语义)和Conv E(基于神经网络)。在我们的结果中,X + M (Y) 表示方法 M 用于获取实体嵌入(在 CompGCN 的情况下是关系嵌入),其中 X 作为评分函数,如图 2 所示。Y 表示 CompGCN 情况下的合成运算符。我们评估了受Trans E(Bordes等人,2013),Dist Mult(Yang等人,2014)和Hol E(Nickel等人,2016)启发的三个非参数组合运算符的CompGCN,定义为

  • Subtraction(Sub): ∅ ( e s , e r ) = e s − e r \varnothing(e_s,e_r) = e_s-e_r (es,er)=eser
  • Multiplication(Mult): ∅ ( e s , e r ) = e s ∗ e r \varnothing(e_s,e_r) = e_s*e_r (es,er)=eser
  • Circular-correlation(Corr): ∅ ( e s , e r ) = e s ⋆ e r \varnothing(e_s,e_r) = e_s\star e_r (es,er)=eser

表4总结了总体结果。与Schlichtkrull等人(2017)类似,我们发现使用基于图卷积的方法作为编码器可以显着提高大多数类型的分数函数的性能。我们观察到,尽管所有基线GCN方法都会导致Trans E评分函数的一些退化,但CompGCN没有观察到这种行为。平均而言,与表现最佳的基线相比,CompGCN 在 TransE、DistMult 和 ConvE 目标下分别获得了约 6%、4% 和 3% 的相对 MRR 增长。CompGCN 的卓越性能可归因于它共同学习实体和关系嵌入,从而在学习表示中提供更多的表达能力。总体而言,我们发现具有Conv E的CompGCN(使用·突出显示)是链路预测的最佳方法2。

请添加图片描述
表 4:在 FB15k-237 数据集上评估的链接预测任务的性能。X + M (Y) 表示方法 M 用于获取以 X 作为评分函数的实体(和关系)嵌入。在 CompGCN 的情况下,Y 表示所使用的组合运算符。B 表示使用的关系基向量的数量。总体而言,我们发现CompGCN在不同的评分函数中优于所有现有方法。Conv E + CompGCN (Corr) 在所有设置下提供最佳性能(使用 · 突出显示)。有关更多详细信息,请参阅第 6.1 节。
请添加图片描述

组合算子的影响: 不同组合算子的链路预测结果如表4所示。我们发现,使用Dist Mult分数函数,乘法运算符(Mult)提供最佳性能,而使用Conv E时,循环相关优于所有其他运算符。总体而言,我们观察到更复杂的运算符(如循环相关)的性能优于或表现优于更简单的运算符(如减法)。

6.3 CompGCN的可扩展性

本节,我们分析了CompGCN在不同数量的关系和基向量的可扩展性。为了分析关系数量的变化,我们通过保留对应于前 m 个最常见关系的三元组来创建 FB15k-237 数据集的多个子集,其中 m = {10, 25, 50, 100, 237}。对于所有实验,我们使用性能最佳的模型(ConvE + CompGCN (Corr))。
变化关系基向量的影响: 在这里,我们分析了COMPGCN在改变第4节中定义的关系基向量(B)数量方面的性能。结果总结在图3中。我们发现,随着基向量的增加,我们的模型性能得到了提高。我们注意到,当 B = 100 时,模型的性能变得与所有关系都有其单独嵌入的情况相当。在表 4 中,我们报告了 B 设置为 50 的所有评分函数中性能最佳的模型的结果。我们注意到,参数高效变体也提供了相当的性能,并且在所有设置中都优于基线。
请添加图片描述

请添加图片描述
表 5:节点分类(左)和图分类(右)任务的性能比较。 并表明结果分别直接取自Schlichtkrull等人(2017)和Xu等人(2019)。总体而言,我们发现CompGCN的性能优于现有方法或表现相当。有关更多详细信息,请参阅第 6.4 节。

关系数的影响: 接下来,我们使用 5 个关系基向量 (B = 5) 与 CompGCN 报告了 CompGCN 的相对性能,CompGCN 对数据集中的每个关系都使用一个单独的向量。结果如图5所示。总体而言,我们发现在所有不同数量的关系中,CompGCN 在有限的基础上,提供了与完整模型相当的性能。结果表明,CompGCN 的参数高效变体随关系数量的增加而成比例。

与 R-GCN 的比较: 在这里,我们对 CompGCN ( B = 5 ) (\Beta=5) (B=5)的参数高效变体与 R-GCN 在不同数量的关系上进行了比较。结果如图4所示。我们观察到,参数有限的CompGCN在所有设置中始终优于R-GCN。因此,CompGCN 在编码多关系图方面比 R-GCN 具有参数效率和可靠性更有效。

6.4 对节点和图分类的评估

在本节中,我们将评估节点上的 CompGCN 和数据集上的图分类任务,如第 5.1 节所述。实验结果如表5所示。对于节点分类任务,我们报告了Ristoski等人(2016)提供的测试拆分的准确性,而对于图形分类,在Yanardag和Vishwanathan(2015)和Xu等人(2019)之后,我们报告了10倍交叉验证中验证精度的平均值和标准偏差。总体而言,我们发现COMPGCN在节点分类方面优于所有基线方法,并且在图分类任务上具有可比的性能。这证明了使用CompGCN结合关系的有效性,而不是现有的基于GCN的模型。在节点分类方面,与性能最佳的基线相比,我们在两个数据集上平均提高了 3%,而在图分类上,我们在 PTC 数据集上获得了 3% 的改进。

七、结论

在本文中,我们提出了CompGCN,这是一种基于图卷积的多关系图框架,它利用知识图嵌入技术中的各种组合运算符将节点和关系联合嵌入到图中。我们的方法概括了几种现有的多关系GCN方法。此外,我们的方法通过跨层共享关系嵌入和使用基分解来缓解过度参数化的问题。通过对知识图链接预测、节点分类和图分类任务的广泛实验,我们证明了CompGCN相对于现有基于GCN的方法的有效性,并证明了其随着关系数量的增加而具有可扩展性。

致谢

我们感谢匿名审稿人的建设性意见。这项工作得到了人力资源发展部(印度政府)和Google Ph DFellowship的部分支持。


参考文献

提示:这里对文章进行总结:

附录

A.1 按关系类别评价

在本节中,我们研究CompGCN在FB15k - 237数据集上对不同关系类别的链接预测的性能。遵循Wang et al . ( 2014a );Sun等( 2019 )以平均每头尾数和每尾头数为依据,将关系分为一对一、一对多、多对一和多对多四类。结果汇总于表6。我们注意到,使用基于GCN的编码器来获取实体和关系嵌入有助于提高所有类型关系的性能。在一对一关系的情况下,与性能最好的基线( Conv E + W-GCN)相比,CompGCN在MRR上平均提高了约10 %。对于一对多、多对一和多对多,相应的改进分别为10.5 %、7.5 %和4 %。这些结果表明CompGCN在处理简单关系和复杂关系时都是有效的。请添加图片描述

A.2 数据集详细信息

在这一部分,我们提供了实验中使用的不同数据集的细节。对于链接预测,我们使用了以下两个数据集:

  • FB15k-237 是FB15k数据集的修剪版本,去掉了反向关系以防止直接推断。( Toutanova & Chen , 2015年) ( Bordes等, 2013)
  • WN18RR (德特默斯等, 2018)与FB15k - 237相似,是Word Net ( Miller , 1995)衍生的WN18 ( Bordes等, 2013)数据集的子集。

对于节点分类,类似于施利克特克鲁尔et al ( 2017 ),我们在以下两个数据集上进行评估:

  • MUTAG(Node) 是来自DL - Learner工具包3的数据集。它包含复杂分子之间的关系,其任务是识别一个分子是否具有致癌性
  • AM 数据集包含了阿姆斯特丹博物馆( de Boeret al , 2012年)中不同文物之间的关系。目标是根据给定工件的链接和其他属性来预测工件的类别。

最后,对于图分类,类似于Xu et al ( 2019 ),我们在以下数据集上进行评估:

  • MUTAG(Graph) Debnath et al ( 1991 )是188个致突变芳香族和硝基化合物的生物信息学数据集。这些图表需要根据它们对细菌的诱变效应分为两类。
  • PTC 斯里尼瓦桑et al ( 1997 ) 是一个由344个化合物组成的数据集,这些化合物表明雄性和雌性大鼠的致癌性。任务是根据图形在啮齿类动物上的致癌性来标记它们。

表7给出了所使用的所有数据集的汇总统计数据。
请添加图片描述

A.3 超参数

在这里,我们展示了本文中用于评估的每个任务的实现细节。对于所有的任务,我们使用COMPGCN构建在Py Torch几何框架( Fey & Lenssen , 2019年)上。
链接预测: 为了评估,为了节点和关系的嵌入使用了200维嵌入,为了选择最佳模型,我们使用验证数据对表 8 中列出的值执行超参数搜索。对于训练链接预测模型,我们使用标准二进制交叉熵损失和标签平滑 Dettmers 等人 (2018) 。
节点分类: 参照施利克特克鲁尔等人 . ( 2017 ),我们使用10 %的训练数据作为验证,为两个数据集选择最佳模型。我们将隐藏单元的数量限制为32。我们使用交叉熵损失来训练我们的模型。
图分类: 类似于Yanardag和Vishwanathan(2015);Xu 等人 (2019),我们报告了 10 倍交叉验证中验证精度的主题和标准差。交叉熵损失用于训练整个模型。为了获得图级表示,我们使用所有节点嵌入的简单平均作为读出函数,即
h g = 1 ∣ V ∣ ∑ n ∈ N h v h_g =\frac{1}{|V|} \sum_{n\in\mathbb N}h_v hg=V1nNhv

这里 h v h_v hv 是学习到图中节点v的节点表示。
对于所有实验,使用Adam优化器( Kingma & Ba , 2014年)进行训练,并使用Xavier initialization ( Glorot & Bengio , 2010年)初始化参数。

HyperparameterValues
Number of GCN Layer ( K K K){1,2,3}
Learning rate{0.001,0.0001}
Batch size{128,256}
Dropout{0.0, 0.1, 0.2, 0.3}

表8:用于链接预测任务的超参数的详细信息。

更多细节请参考A.3节。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值