RREA论文翻译

21 篇文章 0 订阅
21 篇文章 0 订阅

Relational Reflection Entity Alignment

关系反射实体对齐

ABSTRACT

实体对齐旨在识别来自不同知识图谱(KG)的等效实体对,这对于集成多源知识图谱至关重要。最近,随着 GNN 在实体对齐中的引入,近期模型的架构变得越来越复杂。我们甚至在这些方法中发现了两个反直觉的现象:(1)GNN 中的标准线性变换效果不佳。(2)许多为链接预测任务设计的先进知识图谱嵌入模型在实体对齐方面表现不佳。在本文中,我们将现有的实体对齐方法抽象为一个统一的框架Shape-Builder&Alignment,它不仅成功地解释了上述现象,而且导出了理想变换操作的两个关键标准。此外,我们提出了一种新的基于 GNN 的方法,关系反射实体对齐(RREA)。 RREA 利用关系反射转换以更有效的方式获取每个实体的关系特定嵌入。在真实数据集上的实验结果表明,我们的模型显着优于最先进的方法,在 Hits@1 上超出了 5.8%-10.9%。

1 INTRODUCTION

随着越来越多的知识图谱的出现,集成多源知识图谱变得必要且有益,不仅可以补充信息,还可以改进推荐系统和搜索引擎等下游任务。集成知识图谱的关键步骤之一是识别等效实体对。因此,实体对齐任务近年来引起了越来越多的关注。现有的实体对齐方法可以分为两大类:(1)基于翻译的。 受跨语言词嵌入任务的启发,这些方法假设不同知识图谱的嵌入具有相似的分布,因此知识图谱之间对齐的实体对在它们自己的向量空间中也将具有相对相似的位置。这些方法首先在每个单个 KG 上使用基于翻译的 KG 嵌入模型(例如 TransE )来获取其实体和关系的嵌入,然后将两个向量空间中的实体对齐到一个基于一些预先对齐的实体对的统一实体。(2)基于GNN。 与基于翻译的方法不同,基于翻译的方法的关系是从一个实体到另一个实体的翻译,图神经网络(GNN)通过聚合来自相邻节点的信息来生成节点级嵌入。受计算机视觉中广泛使用的连体神经网络的启发,基于 GNN 的方法的典型架构 由两个具有对比损失或三元组损失的多层 GNN 组成。

随着将 GNN 引入实体对齐任务,最近的模型架构变得越来越复杂,很难解释各个组件的有效性。尽管实证结果取得了成功,但我们在这些复杂的方法中观察到两个反直觉的现象,需要进一步澄清和研究:

Q1:为什么 GNN 的标准线性变换在实体对齐中效果不佳? GNN 最初是用标准线性变换矩阵设计的,然而,许多基于 GNN 的方法将其限制为单位(即从 GNN 中删除该矩阵)或具有单位初始化的对角线。以前的所有方法都只是将其视为参数减少,但没有探索或解释此设置。当我们尝试在 GCN-Align 中撤消此设置时,Hits@1 上的性能显着下降 ⩾ 10%。所以我们认为这应该与一些更根本的问题有关。

Q2:为什么很多先进的KG嵌入模型在实体对齐方面效果不佳? 在其他也需要知识图谱建模的任务中,例如链接预测,许多先进的知识图谱嵌入模型被提出并被证明是非常有效的。奇怪的是,许多专为链接预测而设计的高级嵌入模型在实体对齐方面并未表现出成功。孙等人对许多先进的KG嵌入模型进行了实验,例如TransR、ConvE等,但性能甚至比TransE还要差。作者得出的结论是“并非所有为链接预测设计的嵌入模型都适合实体对齐”,但没有给出任何进一步的探索或解释。

为了从全局和统一的角度分析这两个问题,我们提出了一个抽象实体对齐框架,命名为Shape-Builder & Alignment。在这个框架中,基于翻译的方法和基于 GNN 的方法只是各自特殊设置下的特殊情况。通过这个框架,我们成功地得出了解决上述问题的答案:(Q1)实体对齐假设分布之间的相似性,因此为了避免破坏形状,实体的范数和相对距离在变换后应保持不变。因此,变换矩阵必须是正交的。 (Q2)许多先进的知识图谱嵌入模型都有一个共同的关键思想——将实体嵌入转换为特定于关系的嵌入。然而,它们的变换矩阵很难满足正交性。这就是它们在实体对齐方面表现不佳的根本原因。

受上述发现的启发,我们提出了实体对齐理想变换操作的两个关键标准:关系微分和维度等距。然后,我们设计了一个新的转换操作,关系反射转换,它满足这两个标准。这种新操作能够沿着不同的关系超平面反映实体嵌入,以构造关系特定的嵌入。同时,反射矩阵是正交的,易于证明,因此反射变换可以保持范数和相对距离不变。通过将这种提出的转换集成到 GNN 中,我们进一步提出了一种新颖的基于 GNN 的实体对齐方法,即关系反射实体对齐(RREA)。现实世界公共数据集上的实验结果验证了我们的模型在所有数据集的 Hits@1 上大大超出了现有最先进方法 5.8%-10.9%。我们总结本文的主要贡献如下:

  • 据我们所知,这是第一个将现有实体对齐方法抽象为统一框架的工作。通过这个框架,我们成功地推导出理想转换操作的两个关键标准:关系微分和维度等距。
  • 据我们所知,这是设计满足上述两个标准的新转换操作“关系反射转换”的第一个工作。通过将此操作集成到 GNN 中,我们进一步提出了一种新的基于 GNN 的方法关系反射实体对齐(RREA)。
  • 广泛的实验结果表明,我们的模型在所有现实世界数据集中始终被评为最佳模型,并且在 Hits@1 上比最先进的方法高出 5.8%-10.9%。此外,我们还进行了消融实验,以证明我们模型的每个组件都是有效的。

2 RELATED WORK

现有的实体对齐方法根据其动机可以分为两类。在本节中,我们将详细说明这些方法。

2.1 Translation-based Methods

基于翻译的方法起源于跨语言词嵌入任务。所以他们还有一个核心假设,即不同知识图谱的实体嵌入具有相似的分布,就像不同语言的词嵌入一样。如图1(a)所示,基于翻译的方法通常由两个模块组成:翻译模块和对齐模块。

Image

翻译模块: 翻译模块的主要功能是通过基于翻译的知识图谱嵌入模型将随机初始化的嵌入约束为固定分布。由于其坚实的理论基础和最少的实现工作,大多数基于翻译的方法都采用 TransE 作为翻译模块(例如,MtransE 、JAPE 和 BootEA )。受 Word2Vec 的启发,TransE 将关系解释为从头部到尾部的平移( h + r ≈ t h + r ≈ t h+rt),因此实体嵌入也具有平移不变性的属性。理论上,任何 KG 嵌入模型都可以充当翻译模块。然而,正如第 1 节中提到的,许多在链接预测中表现良好的高级嵌入模型在实体对齐方面并未表现出成功。

对齐模块: 通过将预先对齐的实体作为种子,对齐模块负责将不同KG的嵌入对齐到统一的向量空间中。目前对齐模块有两种类型:

(1)映射:与跨语言词嵌入类似,该方法通过线性变换矩阵将不同的知识图谱嵌入到统一的向量空间中。例如,MtransE、KDCoE 和 OTEA 通过优化一个或两个线性变换矩阵(即 W e 1 ≈ e 2 或 W 1 e 1 ≈ W 2 e 2 W e_1 ≈ e_2 或 W_1e_1 ≈ W_2e_2 We1e2W1e1W2e2)来最小化预对齐对之间的距离。

(2)共享:共享方法通过让每个预对齐对直接共享相同的嵌入来将不同的知识图谱嵌入到统一的向量空间中,这比映射方法更直接。关于共享,存在三种不同的实现:(a) MTransE建议最小化每个预对齐对的方程 ∣ ∣ e 1 − e 2 ∣ ∣ ||e_1 − e_2|| ∣∣e1e2∣∣。(b) JAPE 和 RSN 直接配置 e 1 e_1 e1 e 2 e_2 e2 在模型构建时共享公共嵌入。© BootEA 和 TransEdge 交换其三元组中的预对齐实体以生成额外的三元组用于监督,例如,给定 ( e 1 , e 2 e_1, e_2 e1,e2) 是一个预对齐对和一个三元组 ⟨ e 1 , r 1 , e 3 ⟩ ⟨e_1, r_1,e_3⟩ e1,r1,e3 在 KG 中,模型将产生一个新的三元组 ⟨ e 2 , r 1 , e 3 ⟩ ⟨e_2,r_1,e_3⟩ e2,r1,e3

2.2 GNNs-based Methods

由于 TransE 仅针对单个三元组进行训练,因此它可能缺乏利用实体和关系的全局视图的能力。因此,最近的许多研究将 GNN 引入实体对齐任务,这源于对图的全局信息进行建模的能力。

受连体神经网络的启发,典型的基于 GNN 的方法具有简单直观的架构(如图 1(b) 所示)——两个具有损失函数的多层 GNN 编码器,可以是对比损失或三重态损失。 GCN-Align 提出了第一个基于 GNN 的方法,使用多层普通 GCN 作为编码器,并成功地将 GNN 应用于实体对齐任务。然而,由于普通 GCN 在异构图建模方面的缺陷,GCN-Align 无法有效利用 KG 中丰富的关系信息。

最近的许多研究尝试将关系信息合并到 GNN 中并构建关系感知模型以更好地表示 KG。 HMAN将GCN获得的实体嵌入与邻近关系和属性嵌入的平均值连接起来。MuGNN、NAEA和MRAEA根据实体之间的关系类型为实体分配不同的权重系数,这使得模型能够区分不同实体之间的重要性。RDGCN为知识图谱建立了一个以关系为节点、以实体为边的双重关系图。奇怪的是,许多 GNN 方法在其变换矩阵设计中采用了反直觉的约束,即强制矩阵为单位矩阵或对角矩阵。以前的所有方法都只是将其视为参数减少,但没有探索或解释此设置。

此外,还提出了一些其他基于 GNN 的模型,用于在链接预测任务中对知识图谱进行建模。通过为不同的关系分配不同的变换矩阵,RGCN在卷积之前将实体映射到相应的关系向量空间。KBAT使用线性变换矩阵将三重嵌入转换为新的实体嵌入,并通过注意机制为新的嵌入分配不同的权重系数。然而,根据表 5 中我们的实验结果,这些高级模型在实体对齐方面的表现甚至比普通 GCN 还要差。

3 PRELIMINARY

3.1 Problem Formulation

KG 以三元组 ⟨ e n t i t y 1 , r e l a t i o n , e n t i t y 2 ⟩ ⟨entity_1,relation,entity_2⟩ entity1,relation,entity2 的形式存储现实世界信息,描述两个实体之间的关系。 KG 可以定义为 G = ( E , R , T ) G = (E, R, T) G=(E,R,T),其中 E E E R R R 分别表示实体和关系的集合, T T T 表示三元组的集合。尽管不同的知识图谱是从不同的来源构建的,但仍然有许多实体对引用相同的现实世界对象。实体对齐的目的是从多源知识图谱中找到这些对齐的实体对,这是知识集成的关键步骤。形式上, G 1 G_1 G1 G 2 G_2 G2 是两个多源 KG, P = { ( e i 1 , e i 2 ) ∣ e i 1 ∈ E 1 , e i 2 ∈ E 2 } i = 1 p P=\left\{(e_{i_{1}},e_{i_{2}})|e_{i_{1}}\in E_{1},e_{i_{2}}\in E_{2}\right\}_{i=1}^{p} P={(ei1,ei2)ei1E1,ei2E2}i=1p表示预对齐种子对的集合。实体对齐的目的是基于这些预先对齐的种子找到新的对齐实体对。

3.2 Datasets

为了与之前的方法进行比较可靠和公平,我们在两个广泛使用的开源数据集上进行了实验:

  • DBP15K包含由DBpedia多语言版本构建的三个跨语言数据集,包括 D B P Z H − E N DBP_{ZH−EN} DBPZHEN(中文到英文)、 D B P J A − E N DBP_{JA−EN} DBPJAEN(日文到英文)和 D B P F R − E N DBP_{FR−EN} DBPFREN(法文到英文)。
  • DWY100K摘自 DBpedia、Wikidata 和 YAGO3。它有两个单语数据集:DWYWD (DBpediaWikidata) 和 DWYYG (DBpedia-YAGO3)。每个数据集都有 100000 个参考实体比对和超过 90 万个三元组。

表 1 显示了这些数据集的统计数据。按照之前研究的设置,我们随机分割 30% 的对齐对进行训练,保留 70% 进行测试。报告的性能是五次独立训练运行的平均值,并且训练/测试数据集在每一轮中都会被打乱。

Image

4 A UNIFIED ENTITY ALIGNMENT FRAMEWORK 统一的实体协调框架

在本节中,我们将基于 GNN 的方法和基于翻译的方法建模为一个抽象但统一的实体对齐框架。那么这个框架不仅成功地给出了第 1 节中提出的两个问题的答案,而且还给出了实体对齐的理想转换操作的关键标准。

4.1 Shape-Builder & Alignment

基于翻译的实体对齐方法背后的动机是跨语言词嵌入(词对齐)。所以自然地,它们都可以抽象成一个由 Shape-BuilderAlignment 组成的统一框架,如图 2 所示:

Image

**形状生成器:**形状生成器的主要功能是将随机初始化的分布限制为我们定义为形状的特定分布。显然,第 2 节中提到的翻译模块是一个形状生成器。事实上,除了 TransE 之外,任何嵌入模型都可以用作形状生成器。唯一的先决条件是从两个 KG 获得的嵌入之间应该具有形状相似度。换句话说,等价元素(例如单词或实体)在它们自己的向量空间中具有相对相似的位置。

**对齐:**当形状相似度成立时,可以通过预先对齐的种子来匹配不同的形状。如第 2 节中所述,映射是基于平移的方法中的对齐模块之一,它训练矩阵 W \mathbf W W 以最小化预对齐种子之间的距离,如下所示:

min ⁡ W ∑ ( e i , e j ) ∈ P ∥ W h e i − h e j ∥ ( 1 ) \min_{W}\sum_{(e_i,e_j)\in P}\|\mathbf W \mathbf h_{e_i}-\mathbf h_{e_j}\|\quad\quad(1) Wmin(ei,ej)PWheihej(1)

其中 ( e i , e j ) (e_i,e_j) (ei,ej)是预对齐对, h e i \mathbf h_{e_i} hei 表示实体 e i e_i ei 的嵌入向量。然而,如果矩阵 W \mathbf W W没有约束,则不能保证变换后嵌入的范数和相对距离得到保留,这反过来又可能破坏原始的形状相似性。种子对拟合良好,但其余实体可能未对齐(如图 2(a) 所示)。另一方面,如果 W \mathbf W W被约束为正交,则它变成旋转操作,并且形状相似性不会被破坏。这就是为什么许多单词对齐方法使用正交约束。在实体对齐中,OTEA还提出将变换矩阵约束为正交(如图2(b)所示)。

此外,在另一个对齐模块共享中,预先对齐的实体被视为锚点,然后在形状构建器的优化过程中可以逐渐对齐其余实体(如图2©所示)。与映射相比,共享完全放弃了变换矩阵,从而减少了参数并简化了架构。到目前为止,所有基于翻译的方法都可以抽象到这个框架中。

4.2 GNNs-based Methods Are Also Subject to Our Unified Framework

实体对齐任务中的许多 GNN 包含以下方程:

h N e i e l ← A g g r e g a t e ( { h e k l , ∀ e k ∈ { e i } ∪ N e i e } ) ( 2 ) h e i l + 1 ← σ ( W l ⋅ h N e i e l ) ( 3 ) h_{\mathcal{N}_{e_{i}}^{e}}^{l}\leftarrow Aggregate(\{\mathbf h_{e_{k}}^{l},\forall e_{k}\in\{e_{i}\}\cup\mathcal{N}_{e_{i}}^{e}\})\quad\quad(2)\\h_{e_{i}}^{l+1}\leftarrow\sigma\left(\mathbf W^{l}\cdot h_{\mathcal{N}_{e_{i}}^{e}}^{l}\right) \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad(3) hNeielAggregate({hekl,ek{ei}Neie})(2)heil+1σ(WlhNeiel)(3)

其中 N e i e \mathcal{N}_{e_{i}}^{e} Neie表示 e i e_i ei周围的相邻节点的集合, W l \mathbf W^l Wl是层𝑙的变换矩阵。等式 2 负责聚合来自相邻节点的信息,而等式 3 将节点嵌入转换为更好的嵌入。有许多操作可以达到𝐴𝑔𝑔𝑟𝑒𝑔𝑎𝑡𝑒的目的,例如归一化均值池(vanilla GCN)和注意力加权求和(GAT)。

生成嵌入后,基于 GNN 的方法通常使用三元组损失来使等效实体彼此接近:

L = ∑ ( e i , e j ) ∈ P ( e i ′ , e j ′ ) ∈ P ′ m a x ( ∥ h e i − h e j ∥ a l i g n m e n t − ∥ h e i ′ − h e j ′ ∥ + λ , 0 a p a r t ) ( 4 ) L=\sum_{\substack{(e_{i},e_{j})\in P\\(e'_{i},e'_{j})\in P'}}max\left(\frac{\|h_{e_{i}}-h_{e_{j}}\|}{alignment}-\frac{\|h_{e_{i}^{\prime}}-h_{e_{j}^{\prime}}\|+\lambda,0}{apart}\right)\quad\quad(4) L=(ei,ej)P(ei,ej)Pmax(alignmentheihejapartheihej+λ,0)(4)

其中 λ \lambda λ 表示边距超参数, ( e i ′ , e j ′ ) (e'_i,e'_j ) (ei,ej) 表示随机替换 ( e i , e j ) (e_i, e_j ) (ei,ej) 之一的负对。有趣的是,损失函数的前半部分(即 ∥ h e i − h e j ∥ \|h_{e_{i}}-h_{e_{j}}\| heihej)与共享对齐模块完全相同。如果查看 AliNet中使用的对比损失,同样的发现会更加明显:

L = ∑ ( e i , e j ) ∈ P ∥ h e i − h e j ∥ a l i g n m e n t + ∑ ( e i ′ , e j ′ ) ∈ P ′ m a x ( ∥ h e i ′ − h e j ′ ∥ + λ , 0 a p a r t ) ( 5 ) L=\sum_{(e_i,e_j)\in P}\frac{\|h_{e_i}-h_{e_j}\|}{alignment}+\sum_{(e_i^{\prime},e_j^{\prime})\in P^{\prime}}max\left(\frac{\|h_{e_i^{\prime}}-h_{e_j^{\prime}}\|+\lambda,0}{apart}\right)\quad\quad(5) L=(ei,ej)Palignmentheihej+(ei,ej)Pmax(apartheihej+λ,0)(5)

因此,GNN 中的损失都可以分为两个子部分:前一半,即对齐损失,充当对齐模块;而后一半,即分离损失,充当形状构建器的一部分。

因此,我们提出一个假设:**基于 GNN 的方法也受我们的统一框架 Shape-Builder & Alignment 的约束。**更具体地说,我们相信 GNN 的 𝐴𝑔𝑔𝑟𝑒𝑔𝑎𝑡𝑒 操作和分离损失函数一起构成了一个潜在的形状生成器。 𝐴𝑔𝑔𝑟𝑒𝑔𝑎𝑡𝑒操作使相似的实体彼此靠近,而分离损失使不同的实体彼此远离。因此它们的组合构建了一个具有形状相似性的分布。

视觉实验: 如果我们的假设是正确的,那么不同KG的分布应该具有视觉相似性。因此,为了验证我们的假设,我们保留了 GCN-Align 中三重态损失的分离损失,它具有最简单的架构:

L a p a r t = ∑ ( e i ′ , e j ′ ) ∈ P ′ max ⁡ ( λ − ∥ h e i ′ − h e j ′ ∥ 1 , 0 ) ( 6 ) L_{apart}=\sum_{(e_i^{\prime},e_j^{\prime})\in P^{\prime}}\max\left(\lambda-\left\|\boldsymbol{h}_{e_i^{\prime}}-\boldsymbol{h}_{e_j^{\prime}}\right\|_1,0\right)\quad\quad(6) Lapart=(ei,ej)Pmax(λ heihej 1,0)(6)

然后GCN-Align从监督模型转变为自监督模型。我们在 D B P F R − E N DBP_{FR−EN} DBPFREN 上训练模型并提取 100 个对齐对的嵌入,然后通过 t-SNE 将它们映射到二维空间。分布如图 3 所示,我们观察到这两个分布之间确实存在相似之处。例如,两者都有大量实体分散在右侧部分,而少量实体紧邻左下角。

Image

定量实验: 如果分布具有形状相似性,则一个 KG 中实体之间的相对距离应等于另一 KG 中实体之间的相对距离。为了进一步量化两个分布之间的相似性,我们设计形状相似性度量如下:

S S = ∑ ( e i , e i ~ ) ∈ P ∑ ( e j , e j ~ ) ∈ P d i s t ( e i , e j ) − d i s t ( e i ~ , e j ~ ) ∑ ( e i ′ , e i ~ ′ ) ∈ P ′ ∑ ( e j ′ , e j ~ ′ ) ∈ P ′ d i s t ( e i ′ , e j ′ ) − d i s t ( e i ~ ′ , e j ~ ′ ) ( 7 ) SS=\frac{\sum_{(e_{i},\widetilde{e_{i}})\in P}\sum_{(e_{j},\widetilde{e_{j}})\in P}dist(e_{i},e_{j}) - dist(\widetilde{e_{i}},\widetilde{e_{j}})}{\sum_{(e_{i}^{\prime},\widetilde{e_{i}}^{\prime})\in P^{\prime}}\sum_{(e_{j}^{\prime},\widetilde{e_{j}}^{\prime})\in P^{\prime}}dist(e_{i}^{\prime},e_{j}^{\prime}) - dist(\widetilde{e_{i}}^{\prime},\widetilde{e_{j}}^{\prime})}\quad\quad(7) SS=(ei,ei )P(ej,ej )Pdist(ei,ej)dist(ei ,ej )(ei,ei )P(ej,ej )Pdist(ei,ej)dist(ei ,ej )(7)

其中 e i , e j ∈ G 1 e_i,e_j\in G_1 ei,ejG1表示一个 KG 中的任意实体对, e i ~ , e j ~ ∈ G 2 \widetilde{e_{i}},\widetilde{e_{j}}\in G_{2} ei ,ej G2表示另一个 KG 中的对应实体对。那么 ( e i ′ , e i ~ ′ , e j ′ , e j ~ ′ ) (e_i^{\prime},\widetilde{e_i}^{\prime},e_j^{\prime},\widetilde{e_j}^{\prime}) (ei,ei ,ej,ej )表示从 ( e i , e i ~ , e j , e j ~ ) (e_i,\widetilde{e_i},e_j,\widetilde{e_j}) (ei,ei ,ej,ej )中随机替换一个实体得到的负四元组, d i s t ( e i , e j ) dist( e_i, e_j ) dist(ei,ej) 表示两个实体之间的距离,其中任何距离度量(例如 L2 或余弦)都适用。所有嵌入均通过 L2 归一化进行归一化。在等式7中,分子表示对齐实体之间的距离差,而分母表示随机对的距离差。

理想情况下,分布之间的 SS 应尽可能小,并且随机分布之间的 SS 应接近1。表2显示了两种不同距离度量下通过随机初始化、GCN-Align和TransE获得的分布之间的SS。实验结果符合我们的预期:(1)随机嵌入之间的SS几乎为1。(2)虽然未经训练的GCN-Align具有一些最小聚类能力,但它仍然接近随机初始化。(3) TransE 和 GCN-Align 都成功地降低了分布的 SS,并且 GCN-Align 略好于 TransE。

Image

这两个实验证明了 GNN 的聚合操作和分离损失一起组成了一个形状生成器。请注意,我们的假设适用于纯粹基于结构信息(即三元组)的对齐方法。一些方法采用实体名称并通过机器翻译或跨语言词嵌入对其进行预对齐。在这些方法中,GNN 起到噪声平滑的作用,而不是实际对齐的作用。因此,这些方法不在我们框架的范围内。

4.3 Why Linear Transformation Not Work

正如第 1 节中提到的,许多基于 GNN 的方法将其变换矩阵限制为单位(即删除 W W W)或单位初始化的对角线。通过我们在 4.2 节中验证的假设,很容易解释为什么这些方法采用这种反直觉的约束。事实上,如果 GNN 的变换矩阵 W \mathbf W W 是单位矩阵,则相当于基于平移方法中的 𝑠ℎ𝑎𝑟𝑖𝑛𝑔 对齐;如果 W \mathbf W W 不受约束,则相当于基于平移的方法中的 𝑚𝑎𝑝𝑝𝑖𝑛𝑔 对齐。如第 4.1 节所述,无约束变换可能会破坏形状相似性并降低性能。因此,应采用正交约束来预留变换时的范数和相对距离。事实上,单位矩阵不仅是正交的一种特例,也是最简单的实现。为了验证我们对Q1的答案,我们设计了两个实验:

(1) GCN-Align 实验:为了证明保持变换矩阵正交是必要的,我们测试了 GCN-Align(最简单的基于 GNN 的方法)的不同约束。为了在训练过程中保持 W \mathbf W W正交,我们采用以下约束:

L o = ∥ W T W − I ∥ 2 2 ( 8 ) L_o=\left\|W^TW-I\right\|_2^2\quad\quad\quad(8) Lo= WTWI 22(8)

从表 3 中可以看出,无约束方法最差,这一点并不奇怪。尽管带有单元初始化的对角线约束显示出很大的改进,但单元和正交𝑊都实现了最佳且非常接近的性能。这表明对角线约束只是在不完全理解的情况下的临时解决方案。与 He 初始化相比,无约束 W \mathbf W W 的正交初始化稍微提高了性能,但无约束 W \mathbf W W 和正交 W \mathbf W W 之间的巨大差距表明正交约束是影响性能的重要因素。

Image

(2) 复杂 GNN 实验:为了进一步验证正交对于复杂方法也是必要的,我们使用 MuGNN、KECG 和 AliNet 测试正交和单位约束设置。最初,MuGNN和KECG采用对角线约束,而AliNet则无约束。实验结果如表4所示。很明显,与每种方法的原始约束设置相比,正交约束和单位约束都提高了所有数据集上的性能。单位约束比正交约束稍好。这可能是因为更多的变换矩阵采用复杂的方法,这使得正交约束稍微难以优化。

Image

综上所述,我们认为 GNN 中的变换矩阵 W \mathbf W W 应约束为正交,以确保变换后实体的范数和相对距离保持不变。单位矩阵不仅是正交的特殊情况,也是最简单的实现。实验结果证明我们的结论对于最简单和复杂的基于 GNN 的方法都是通用的。许多现有的基于 GNN 的方法可以通过采用这种设置来进一步改进。

4.4 Why Advanced KG Embedding Not Work

许多先进的知识图谱嵌入模型被提出并被证明在链接预测任务中是成功的。但其中很多在实体对齐任务中表现很差,如表 5 所示。对于基于翻译的方法,它们比 TransE 至少差 17%,而对于基于 GNNs 的方法,它们比 GCN 至少差 3%。为什么他们不进行实体对齐?为了清楚地比较这些 KG 嵌入模型,我们在表 6 中总结了它们的核心功能。从表中,我们观察到所有这些先进方法都有一个关键思想:将通用实体嵌入转换为关系特定嵌入。特别是,RGCN 是 GCN 和 TransR 的组合,而 KBAT 引用了 ConvE 并将其应用于 GAT。然而,在它们最初的设计中,它们都没有对其变换矩阵施加任何约束。这违反了我们在 4.3 节中的结论。这种无约束的变换破坏了形状相似性,导致实体对齐任务的性能较差(表 5)。

Image

Image

理论上,根据我们在4.3节中的结论,如果这些先进方法中的变换矩阵能够满足正交,那么形状相似性就会被保留。但这种约束在实践中很难采用。对于 TransR 和 RGCN,由于 KG 中通常有数千个关系,因此约束所有关系矩阵是不可行的。对于ConvE和KBAT,转换后的嵌入的维度必须与输入嵌入的维度保持一致。否则,在 KBAT 中堆叠多层时,会导致 ConvE 中的维度不匹配或维度爆炸。因此,ConvE和KBAT的变换矩阵不可能是方阵,更不可能是正交矩阵。但他们在链接预测方面的成功带来了一种认识,即与仅将基于关系分配给实体相比,构建关系特定的实体嵌入在建模关系方面更有效。

4.5 Key Criteria for Transformation Operation 转型运营的关键标准

因此,实体对齐中理想的变换操作应该满足以下两个关键标准:

(1)关系区分: 对应不同的关系类型,该操作可以将同一实体的嵌入变换到不同的关系空间中。

φ ( h e , h r 1 ) ≠ φ ( h e , h r 2 ) , ∀ e ∈ E , ∀ r 1 , r 2 ∈ R ( 9 ) \varphi(\boldsymbol{h}_{e},\boldsymbol{h}_{r_{1}})\neq\varphi(\boldsymbol{h}_{e},\boldsymbol{h}_{r_{2}}),\forall e\in E,\forall r_{1},r_{2}\in R\quad\quad(9) φ(he,hr1)=φ(he,hr2),eE,r1,r2R(9)

(2)维度等距: 当同一KG中的两个实体变换到同一关系空间时,应保留它们的范数和相对距离。

∥ h e ∥ = ∥ φ ( h e , h r ) ∥ , ∀ e ∈ E , ∀ r ∈ R ( 10 ) h e 1 T h e 2 = φ ( h e 1 , h r ) T φ ( h e 2 , h r ) , ∀ e 1 , e 2 ∈ E , ∀ r ∈ R ( 11 ) \|\boldsymbol{h}_{e}\|=\|\varphi(\boldsymbol{h}_{e},\boldsymbol{h}_{r})\|, \forall e\in E,\forall r\in R\quad\quad\quad\quad\quad\quad\quad\quad(10)\\\boldsymbol{h}_{e_{1}}^{T}\boldsymbol{h}_{e_{2}}=\varphi(\boldsymbol{h}_{e_{1}},\boldsymbol{h}_{r})^{T}\varphi(\boldsymbol{h}_{e_{2}},\boldsymbol{h}_{r}), \forall e_{1},e_{2}\in E,\forall r\in R\quad\quad(11) he=φ(he,hr),eE,rR(10)he1The2=φ(he1,hr)Tφ(he2,hr),e1,e2E,rR(11)

5 THE PROPOSED METHOD

在本节中,我们提出了一种基于 GNN 的新颖方法,即关系反射实体对齐(RREA),该方法在 GNN 中结合了关系反射变换,以同时满足关系区分和维度等距标准。

5.1 Relational Reflection Transformation 关系反射变换

为了满足关键标准,我们设计了一种新的转换操作,即关系反射转换。令关系嵌入 h r h_r hr 为法向量,有且仅有一个超平面 P r P_r Pr 和仅有一个对应的反射矩阵 M r M_r Mr,使得:

M r = I − 2 h r h r T ( 12 ) M_r=I-2\boldsymbol{h}_r\boldsymbol{h}_r^T\quad\quad\quad\quad(12) Mr=I2hrhrT(12)

这里 h r h_r hr应该被归一化以确保 ∣ ∣ h r ∣ ∣ 2 = 1 ||\mathbf h_r||_2 = 1 ∣∣hr2=1。很容易得出,实体嵌入 h e h_e he沿关系超平面 P r P_r Pr的反射可以通过 M r h e M_rh_e Mrhe计算。,也很容易证明 M r M_r Mr 是正交的:

M r T M r = ( I − 2 h r h r T ) T ( I − 2 h r h r T ) = I − 4 h r h r T + 4 h r h r T h r h r T = I ( 13 ) \begin{aligned}M_{r}^{T}M_{r}& =(I-2\boldsymbol{h}_{r}\boldsymbol{h}_{r}^{T})^{T}(\boldsymbol{I}-2\boldsymbol{h}_{r}\boldsymbol{h}_{r}^{T}) \\&=I-4\boldsymbol{h}_r\boldsymbol{h}_r^T+4\boldsymbol{h}_r\boldsymbol{h}_r^T\boldsymbol{h}_r\boldsymbol{h}_r^T=\boldsymbol{I}\end{aligned}\quad\quad\quad(13) MrTMr=(I2hrhrT)T(I2hrhrT)=I4hrhrT+4hrhrThrhrT=I(13)

因此,只要 { h r i ≠ h r j , ∀ r i , r j ∈ R } \{\boldsymbol{h}_{r_{i}} \neq \boldsymbol{h}_{r_{j}},\forall r_{i},r_{j} \in R\} {hri=hrj,ri,rjR},我们的关系反射变换就满足两个关键标准(如图 4(a) 和 (b) 所示)。

Image

5.2 Relational Reflection Entity Alignment 关系反射实体对齐

在本节中,我们将描述我们提出的模型关系反射实体对齐(RREA)。输入是两个矩阵: H e ∈ R ∣ E ∣ × d H^{\boldsymbol{e}}\in\mathbb{R}^{|E|\times d} HeRE×d 表示实体嵌入, H r ∈ R ∣ E ∣ × d H^{\boldsymbol{r}}\in\mathbb{R}^{|E|\times d} HrRE×d 表示关系嵌入。 H e H^{\boldsymbol{e}} He H r H^{\boldsymbol{r}} Hr 都是由 He_initializer 随机初始化的。 RREA 由以下四个主要部分组成:

关系反射聚合层: 从𝑙-𝑡ℎ层得到 e i e_i ei 的输出特征如下:

h e i l + 1 = R e L U ( ∑ e j ∈ N e i e ∑ r k ∈ R i j α i j k l M r k h e j l ) ( 14 ) \boldsymbol{h}_{e_i}^{l+1}=\mathrm{ReLU}\Bigg(\sum_{e_j\in\mathcal{N}_{e_i}^e}\sum_{r_k\in\mathcal{R}_{ij}}\alpha_{ijk}^l\boldsymbol{M}_{r_k}\boldsymbol{h}_{e_j}^l\Bigg)\quad\quad(14) heil+1=ReLU(ejNeierkRijαijklMrkhejl)(14)

其中 N e i e \mathcal{N}_{e_{i}}^{e} Neie表示 e i e_i ei的邻近实体集, R i j R_{ij} Rij表示 e i e_i ei e j e_j ej之间的关系集合, M r k ∈ R d × d M_{r_{k}}\in\mathbb{R}^{d\times d} MrkRd×d r k r_k rk的关系反射矩阵。与将不同的 W r \mathbf W_r Wr分配给不同关系的RGCN相比,关系反射的可训练参数数量要少得多,因为 M r \mathbf M_r Mr的自由度仅为 d d d 而不是 d 2 d^2 d2。与GAT类似, α i j k l \alpha_{ijk}^{l} αijkl表示 M r k h e j l M_{r_k}h_{e_j}^l Mrkhejl的权重系数,其计算公式如下:

β i j k l = v T [ h e i l ∥ M r k h e j l ∥ h r k ] ( 15 ) α i j k l = e x p ( β i j k l ) ∑ e j ∈ N e i e ∑ r k ∈ R i j exp ⁡ ( β i j k l ) ) ( 16 ) \beta_{ijk}^{l}=\boldsymbol{v}^{T}[\boldsymbol{h}_{e_{i}}^{l}\|\boldsymbol{M}_{r_{k}}\boldsymbol{h}_{e_{j}}^{l}\|\boldsymbol{h}_{r_{k}}]\quad\quad\quad\quad\quad(15)\\\alpha_{ijk}^{l}=\frac{exp(\beta_{ijk}^{l})}{\sum_{e_{j}\in\mathcal{N}_{e_{i}}^{e}}\sum_{r_{k}\in\mathcal{R}_{ij}}\exp(\beta_{ijk}^{l}))}\quad\quad(16) βijkl=vT[heilMrkhejlhrk](15)αijkl=ejNeierkRijexp(βijkl))exp(βijkl)(16)

其中 v ∈ R 2 d v \in \mathbb R^{2d} vR2d 是用于计算权重系数的可训练向量。为了创建全局感知的图表示,我们堆叠多层 GNN 来捕获多跳邻域信息。来自不同层的嵌入被连接在一起以获得实体 e i e_i ei的最终输出特征 h e i o u t \mathbf h^{out}_{e_i} heiout

h e i o u t = [ h e i 0 ∥ . . . ∥ h e i l ] ( 17 ) h_{e_i}^{out}=[\begin{array}{c}h_{e_i}^0\|...\|h_{e_i}^l\end{array}]\quad\quad\quad(17) heiout=[hei0∥...∥heil](17)

其中 h e i 0 \mathbf h^{0}_{e_i} hei0 表示 e i e_i ei 的初始嵌入。

双向嵌入(Dual-Aspect Embedding): 最近的一些研究认为GNN生成的实体嵌入仅包含拓扑信息,缺乏实体周围的关系信息。因此,他们将关系嵌入的求和与实体嵌入连接起来以获得双方面嵌入。在本文中,我们采用双方面嵌入,公式如下:

h e i M u l = [ h e i o u t ∥ 1 ∣ N e i r ∣ ∑ r j ∈ N e i r h r j ] ( 18 ) \boldsymbol{h}_{e_i}^{Mul}=\left[\boldsymbol{h}_{e_i}^{out}\Big\|\frac{1}{|\mathcal{N}_{e_i}^r|}\sum_{r_j\in\mathcal{N}_{e_i}^r}\boldsymbol{h}_{r_j}\right]\quad\quad(18) heiMul= heiout Neir1rjNeirhrj (18)

其中 N e i r \mathcal{N}_{e_i}^r Neir表示实体 e i e_i ei 周围的关系集。

训练的对齐损失函数: 为了使统一向量空间中的等价实体彼此靠近,我们采用以下三元组损失函数:

L = ∑ ( e i , e j ) ∈ P m a x ( d i s t ( e i , e j ) − d i s t ( e i ′ , e j ′ ) + λ , 0 ) ( 19 ) L=\sum\limits_{\begin{pmatrix}e_i,e_j\end{pmatrix}\in P}max\left(dist\left(e_i,e_j\right)-dist\left(e_i',e_j'\right)+\lambda,0\right)\quad\quad(19) L=(ei,ej)Pmax(dist(ei,ej)dist(ei,ej)+λ,0)(19)

这里, e i ′ e'_i ei e j ′ e'_j ej代表由最近邻采样生成的 e i e_i ei e j e_j ej的负对。在训练过程中,我们采用与 GCN-Align相同的设置,使用曼哈顿距离作为距离度量。

d i s t ( e i , e j ) = ∥ h e i M u l − h e j M u l ∥ 1 ( 20 ) dist\begin{pmatrix}e_i,e_j\end{pmatrix}=\begin{Vmatrix}h_{e_i}^{Mul}-h_{e_j}^{Mul}\end{Vmatrix}_1\quad\quad(20) dist(ei,ej)= heiMulhejMul 1(20)

CSLS 测试指标: 我们注意到 Lample 等人提出跨域相似性局部缩放(CSLS)来解决跨语言词嵌入任务中存在的中心问题。受他们研究的启发,我们在测试过程中采用 CSLS 作为距离度量。

5.3 Further Data Enhancement 进一步的数据增强

半监督学习: 在实践中,由于人工标注的成本高昂以及知识图谱规模庞大,对齐种子往往不够充分。为了扩展训练数据,最近的一些研究采用迭代或引导策略来构建半监督模型。在本文中,我们使用MRAEA提出的迭代策略来生成半监督数据。

无监督文本框架: 我们之前讨论的方法只关注知识图谱的结构信息。在一些知识图谱中,还提供丰富的文本信息,例如实体名称。因此,最近的一些方法提出将文本信息和结构信息结合起来。其中,MRAEA提出的无监督文本框架不需要标记数据,更加实用。在本文中,我们采用 MRAEA 的无监督文本框架。

6 EXPERIMENTS

在本节中,我们对两个公共数据集进行了一系列实验,以证明我们的模型不仅优于所有现有方法,而且具有鲁棒性。该代码现已在 GitHub上提供。

6.1 Experiment Setting

数据分割和指标: 根据之前的研究,我们随机分割 30% 的预对齐实体对作为训练数据,剩下的数据用于测试。报告的性能是五次独立训练运行的平均值,并且训练/测试数据集在每一轮中都会被打乱。与之前的工作一样,我们还使用 Hits@k 和平均倒数排名(MRR)作为评估指标。Hits@k 表示正确对齐的实体占前 k k k 个潜在实体的百分比。Hits@k 和 MRR 越高,性能越好。

超参数选择: 我们选择具有以下候选集的超参数:嵌入维度 d ∈ { 75 , 100 , 150 , 200 } d \in \{75, 100, 150, 200\} d{75,100,150,200},边距 λ ∈ { 1.0 , 2.0 , 3.0 , 4.0 } \lambda \in \{1.0, 2.0, 3.0, 4.0\} λ{1.0,2.0,3.0,4.0},学习率 γ ∈ { 0.001 , 0.005 , 0.01 } \gamma \in \{0.001, 0.005, 0.01\} γ{0.001,0.005,0.01},GNN 的深度 l ∈ { 1 , 2 , 3 , 4 } l \in \{1, 2, 3, 4\} l{1,2,3,4},丢失率 μ ∈ { 0.2 , 0.3 , 0.4 , 0.5 } \mu \in \{0.2, 0.3, 0.4, 0.5\} μ{0.2,0.3,0.4,0.5}。对于所有数据集,我们使用相同的配置: d = 100 , λ = 3 , l = 2 , μ = 0.3 , γ = 0.005 d = 100,\lambda = 3,l = 2,\mu = 0.3,\gamma = 0.005 d=100,λ=3,l=2,μ=0.3,γ=0.005。采用RMSprop对模型进行优化,epoch数设置为3000。

6.2 Baselines

作为一项新兴任务,实体对齐在短时间内引起了广泛关注。许多研究认为现有数据集的信息不足,因此尝试在数据集中引入额外的数据。例如,GMNN 和RDGCN 使用实体名称作为输入特征,BootEA 引入半监督来扩展数据集。我们认为引入额外数据可能会导致方法之间的不公平比较。因此,我们根据现有方法使用的数据将其分为三类:

  • 基本:这种方法仅使用数据集中的原始结构数据(即三元组):JAPE、GCN-Align、RSN、MuGNN、TransEdge、AliNet 和 MRAEA。
  • 半监督:此类方法引入半监督来生成额外的结构数据:Boot-EA、NAEA、TransEdge(semi)、MRAEA(semi)。
  • 文本:除了结构数据之外,文本方法还引入实体名称作为附加输入特征:GMNN、RDGCN、HGCN、MRAEA(text)和DGMC。

相应的,为了与各种方法进行公平比较,我们的RREA也有三个版本:RREA(basic)、RREA(semi)和RREA(text)。

6.3 Main Results and Ablation Studies 主要结果和消融研究

RREA 与基本和半监督方法。 表 8 显示了基本方法和半监督方法的性能比较。显然,我们的模型的性能在所有评估指标上始终被评为所有竞争基本方法和半监督方法中最好的。特别是,与最先进的方法TransEdge和MRAEA相比,RREA(basic)在Hits@1上超过至少6%,RREA(semi)在Hits@1上分别超过5%以上。主要原因是我们的反射转换为实体构建了关系特定的嵌入,可以更好地捕获关系信息。此外,很明显,半监督可以显着提高所有方法在所有数据集上的性能。与 RREA (basic) 相比,RREA (semi) 通过半监督迭代生成额外的训练数据,在 Hits@1 上平均提高了 6% 的性能。综上所述,RREA打破了纯基于结构的实体对齐方法的性能天花板,这证明了我们的设计是有效的。

Image

RREA 与文本方法。 由于DWY100K的所有数据集都是从英语KG中采样的,因此文本信息高度相似。因此,我们仅在DBP15K上进行文本方法的实验。表 7 显示了比较方法的结果。我们的模型击败了 MRAEA,并在所有数据集上取得了最好的成绩。由于我们使用 MRAEA 提出的无监督文本框架,性能的提高完全归功于结构数据更好的建模。与其他监督模型(例如 DGMC、GMNN)相比,RREA(text)甚至在使用相同数据集时实现了更好的性能。

Image

我们观察到不同数据集之间文本方法的性能差距远远大于结构方法。所有方法在法语中的表现都比在其他两种语言中好得多。这是因为法语和英语之间的差异比其他语言小得多。因此,通过跨语言单词嵌入或机器翻译,法语单词更容易映射到英语。此外,虽然文本方法的性能明显优于结构方法,但结构方法在实践中更具普适性。由于当前的数据集均来自维基百科,因此实体名称等文本信息对于谷歌翻译或跨语言嵌入来说过于简单,其训练语料也来自维基百科。事实上,文本信息往往无法获得,或者很难获得高质量的翻译。因此,我们认为在研究中应该将语篇方法单独进行比较,而不是与结构方法放在一起比较。

消融研究。 在上面的实验中,我们展示了 RREA 的总体成功。在这一部分中,我们想要演示 RREA(basic)中每个组件的有效性。正如第 5 节提到的,RREA(basic)与 GCNAlign 相比有三个设计:(1)跨域相似性局部缩放;(2)关系反射聚合层;(3)双向嵌入。从 GCN-Align 基线开始,我们逐渐采用这些组件并以 Means±stds 报告结果。如表 9 所示。显然,所有这三种设计都显着提高了性能。与GCN-Align相比,CSLS的引入提高了约4%的性能。这表明实体对齐任务和跨语言词嵌入之间存在高度相关性。在模型中添加关系反射聚合层和 Dual-AspectEmbedding 进一步分别为𝐻𝑖𝑡𝑠@1 带来了 15% 和 7% 的改进。这意味着这两种设计都将独特的信息引入模型中。这些消融实验表明我们的设计是有意义的并且带来了显着的改进。

Image

6.4 Robustness Analysis

预调整比率的鲁棒性。 一般来说,构建预对齐种子是一项高资源消耗操作。特别是在现实世界中实践时,KG 通常具有数百万个实体、关系和三元组。因此,我们希望该模型能够在较低的预配资源情况下表现良好。为了研究 RREA 在不同预对齐比率下的鲁棒性,我们比较了 DBP15K 上三种基于 GNN 的方法(MuGNN、MRAEA 和 RREA(basic))与不同预对齐对比率的性能。图 5 报告了在三个跨语言数据集上保留 10% 到 40% 的预对齐对作为训练数据时的性能。显然,RREA 在训练数据的所有预对齐比率方面都显着优于对比方法。仅在 10% 预对齐对的情况下,RREA(basic)在 DBP15K 上仍然实现了超过 52% Hits@1,这甚至优于 MuGNN 在 40% 预对齐比下的性能。

Image

超参数的鲁棒性。 为了研究 RREA 对超参数的鲁棒性,我们评估了 DBP15K 上的性能,改变层数 l l l 和边距 λ \lambda λ,同时保持其他超参数与默认设置一致。实验结果如图 6 所示。对于层深度 l l l,具有 2 层的 RREA 在所有数据集上实现了最佳性能。当堆叠更多层时,性能开始略有下降。堆叠更多层只会导致速度变慢,而不是性能更好。对于margin λ \lambda λ,当 λ \lambda λ设置为2.0∼4.0时,性能差距小于1%。一般来说, l l l λ \lambda λ对性能的影响有限,并且模型在超参数变化期间相对稳定。

Image

7 CONCLUSIONS

在本文中,我们提出了实体对齐中的反直觉现象,这些现象被先前的研究所忽视。通过将现有的实体对齐方法抽象为一个统一的框架,我们成功地解释了问题并导出了实体对齐中转换操作的两个关键标准:关系微分和维度等距。受这些发现的启发,我们提出了一种基于 GNN 的新颖方法,即关系反射实体对齐(RREA),它利用了一种称为关系反射的新转换操作。实验结果表明,我们的模型在所有现实世界数据集中始终被评为最佳模型,并且在 Hits@1 上的性能优于最先进的方法 5.8% 以上。

论文链接:

https://arxiv.org/pdf/2008.07962.pdf

论文代码:

https://github.com/MaoXinn/RREA

  • 25
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱达堡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值