基于嵌入的知识图谱实体对齐的基准研究
Zequn Sun †, Qingheng Zhang †, Wei Hu †∗ , Chengming Wang †, Muhao Chen ‡, Farahnaz Akrami §, Chengkai Li §
摘要
实体对齐试图在不同的知识图谱 (KG) 中找到指向同一现实世界对象的实体。KG 嵌入的最新进展推动了基于嵌入的实体对齐方法的出现,它将实体编码到连续嵌入空间中,并根据学习到的嵌入来度量实体的相似性。在本文中,我们对这一新兴领域进行了全面的实验研究。我们综述了23种最近基于嵌入的实体对齐方法,并根据它们的技术和特点对其进行分类。我们还提出了一种新的 KG 采样算法,我们使用该算法生成一组具有不同异质性和分布的专用基准数据集,用于实际评估。我们开发了一个开源库,包括 12 个具有代表性的基于嵌入的实体对齐方法,并广泛评估这些方法,以了解它们的优势和局限性。此外,对于当前方法中尚未探索的几个方向,我们进行探索性实验并报告我们的初步发现以供未来研究。基准数据集、开源库和实验结果都可以在线访问,并将及时维护。
1. 介绍
知识图谱 (KG) 将事实存储为 ( 主 语 实 体 , 关 系 , 宾 语 实 体 ) (主语实体,关系,宾语实体) (主语实体,关系,宾语实体)或 ( 主 语 实 体 , 属 性 , 文 字 值 ) (主语实体,属性,文字值) (主语实体,属性,文字值)形式的三元组。这种类型的知识库支持各种应用,例如语义搜索、问答和推荐系统[18]。为了促进知识融合,研究人员在 实 体 对 齐 实体对齐 实体对齐任务上取得了相当大的进展,实体对齐通常也被称为 实 体 匹 配 实体匹配 实体匹配或 实 体 消 解 实体消解 实体消解。目标是从不同 KG 中识别出指代同一实体的多个实体,例如DBpedia [40] 中的Mount_Everest和Wikidata 中的Q513[79]。解决该任务的传统方法是利用实体的大量可区分特征,例如名称、描述性注释和关系结构[ 15, 31, 32, 39, 70 ]。主要挑战在于独立创建的 KG 之间的符号、语言和模式异质性。
基 于 嵌 入 的 实 体 对 齐 基于嵌入的实体对齐 基于嵌入的实体对齐已经出现[10] 并在近年得到很大的发展 [8, 9, 24, 28, 57, 72, 73, 77, 81, 83, 93]。这种方法基于 KG 嵌入技术,将知识图谱的符号表示嵌入为低维向量,使得实体的语义相关性可以由嵌入空间的几何结构表示[5]。前提是这种嵌入可以潜在地降低上述异质性并简化知识推理[80]。图1 描绘了基于嵌入的实体对齐的典型框架。它以两个不同的 KG 作为输入,并使用owl:sameAs链接[10]等来源收集它们之间的 种 子 对 齐 种子对齐 种子对齐。然后,将两个 KG 和种子对齐输入到 嵌 入 嵌入 嵌入和 对 齐 对齐 对齐模块中,以获取实体嵌入的对应关系。模块交互有两种典型的组合范式:(i)嵌入模块将两个 KG 编码在 两 个 两个 两个独立的嵌入空间中,同时对齐模块使用种子对齐来学习它们之间的映射[ 9,10,57,58 ] , 或者 (ii) 通过强制种子对齐中对齐的实体保持非常相似的嵌入,对齐模块引导嵌入模块将两个 KG 表示到 一 个 一个 一个统一空间中 [8, 44, 72, 73, 77, 81, 93]。最后,实体相似性通过学到的嵌入来度量。我们可以使用像欧几里得距离这样的距离度量,通过目标实体嵌入之间的最近邻搜索来预测对应于源实体的目标实体。此外,为了克服种子实体对的不足,一些方法[9, 73, 93] 采用半监督学习来迭代地增加新的对齐对。
图 1:基于嵌入的实体对齐框架
然而,作为一个新兴的研究课题,在分析和评估基于嵌入的实体对齐方面仍有存在一些问题。首先,据我们所知,目前还没有总结该领域现状的工作。基于嵌入的实体对齐的 最 新 发 展 最新发展 最新发展及其 优 缺 点 优缺点 优缺点仍有待探索。我们甚至不知道基于嵌入的方法与传统的实体对齐方法相比如何。其次,也没有广泛认可的基准数据集来对基于嵌入的实体对齐方法进行实际评估。可以说,比较流行的数据集是 DBP15K(为文献 [8, 42, 68, 72, 73, 81, 83, 84, 85, 87, 94] 所使用)和 WK3L(为 [10, 44, 57,58] 所使用)。不同的评估数据集使得对基于嵌入的实体对齐方法进行公平和全面的比较变得困难。此外,当前数据集包含的高度数(high-degree)实体(即与许多其他实体连接的实体,对于实体对齐相对容易)比现实世界的 KG 多得多。因此,许多方法可能在这些有偏的数据集上表现出良好的性能。此外,这些数据集只关注异质性的一个方面,例如多语言,而忽略了其他方面,例如不同的模式和规模。这给理解基于嵌入的实体对齐的泛化性和鲁棒性带来了困难。第三,我们发现该领域的研究只有一部分带有源代码,这使得很难在这些方法之上进行进一步的研究。由于这些问题,迫切需要对基于嵌入的实体对齐方法进行全面和现实的重新评估,并进行深入分析。
在本文中,我们用一个开源库对基于嵌入的实体对齐进行了系统的实验研究。我们的主要贡献如下:
- 全 面 综 述 全面综述 全面综述。我们综述了23种最近的基于嵌入的实体对齐方法,并从不同方面对它们的核心技术和特点进行了分类。我们还总结了每个技术模块的流行选择,提供了该领域的简要综述。(第 2 节)
- 基 准 数 据 集 基准数据集 基准数据集。为了进行公平和现实的比较,我们通过对真实世界的 KGs DBpedia [40], Wikidata [79]和 YAGO [61] 进行采样,构建了一组专用的基准数据集,其拆分为五份,考虑到有关实体度数、多语言、模式和规模等异质性的不同方面。特别是,我们提出了一种新的采样算法,它可以使样本的属性(例如,度数分布)接近其源 KG。(第 3 节)
- 开 源 库 开源库 开源库。我们使用 Python 和 TensorFlow开发了一个开源库OpenEA 1。 该库集成了 12 种具有代表性的基于嵌入的实体对齐方法,隶属于多种不同技术。它使用一个灵活的架构,可以轻松集成大量现有的 KG 嵌入模型(已实现 8 个代表性模型)以进行实体对齐。库(library)将随着新方法的出现而及时更新,以促进未来的研究。(第 4 节)
- 综 合 比 较 分 析 综合比较分析 综合比较分析。在我们的数据集上,对 12 种基于嵌入的代表性实体对齐方法的有效性和效率方面进行了全面比较。使用我们的开源库从头开始训练和调试每种方法,以确保公平评估。这些结果概述了基于嵌入的实体对齐的性能。为了深入了解每种方法的优势和局限性,我们从不同方面对其性能进行了广泛的分析。(第 5 节)
- 探 索 性 实 验 探索性实验 探索性实验。我们进行了三个文献之外的实验。我们第一次对实体嵌入的几何特性进行了分析,以了解它们与最终性能的潜在联系。我们注意到许多 KG 嵌入模型尚未被用于实体对齐,我们探索了其中的 8 个流行模型。我们还将基于嵌入的方法与几种传统方法进行了比较,以探索它们的互补性。(第 6 节)
- 未来的研究方向。基于我们的综述和实验结果,我们对未来工作的几个有前途的研究方向进行了全面展望,包括无监督实体对齐、长尾实体对齐、大规模实体对齐和非欧嵌入空间中的实体对齐。(第 7 节)
据我们所知,这项工作是第一个关于 KG 间基于嵌入的实体对齐的系统全面的实验研究。我们的实验揭示了当前方法在现实实体对齐场景中的真实性能以及优缺点。我们发现的缺点,例如基于关系的方法在处理长尾实体方面的能力不足,以及基于属性的方法在解决属性值的异质性方面效果不佳,需要重新研究真正有效的方法用于现实世界的实体对齐。我们还相信,我们对实体嵌入几何特性的深入分析开辟了一个新方向,以研究什么能够实现面向对齐的嵌入,以及是什么支持越来越强大的方法背后的实体对齐性能。我们的基准数据集、库和实验结果都可以在 GPL 许可下通过 GitHub 库公开获得1 ,以促进可重复的研究。我们认为数据集和库将成为未来研究宝贵和基础的资源。随着越来越多的知识驱动应用在 KG 之上提升其性能并从 KG 融合中受益,这项工作可能会对 KG 和数据库社区产生深远的影响。
2. 预备知识
我们考虑两个 KG K G 1 \mathcal{KG}_1 KG1和 K G 2 \mathcal{KG}_2 KG2之间的实体对齐任务。让 E 1 \mathcal{E}_1 E1和 E 2 \mathcal{E}_2 E2分别表示它们的实体集。目标是找到实体的一对一对齐 S K G 1 , K G 2 = { ( e 1 , e 2 ) ∈ E 1 × E 2 ∣ e 1 ∼ e 2 } \mathcal S_{\mathcal{KG}_1 , \mathcal{KG}_2} = \{ ( e_1 , e_2 ) \in\mathcal E_1 \times\mathcal E_2 |e_1 \sim e_2 \} SKG1,KG2={(e1,e2)∈E1×E2∣e1∼e2} ,其中 ∼ \sim ∼表示等价关系[39, 70]。在许多情况下,一个小的对齐子集 S K G 1 , K G 2 ′ ⊂ S K G 1 , K G 2 \mathcal S'_{\mathcal{KG}_1 , \mathcal{KG}_2}\sub \mathcal S_{\mathcal{KG}_1 , \mathcal{KG}_2} SKG1,KG2′⊂SKG1,KG2,称为 种 子 对 齐 种子对齐 种子对齐,是事先已知的并用作训练数据。
2.1 文献综述
2.1.1 知识图谱嵌入
方法。现有的 KG 嵌入模型通常可以分为三类:(i)平移模型,例如 TransE [5], TransH [82], TransR [49]和 TransD [33],(ii)语义匹配模型,例如 DistMult [86], ComplEx [76], HolE [54], SimplE [36], RotatE [71]和 TuckER [3],(iii)深度模型,例如 ProjE [66], ConvE [13], R-GCN [63],KB- GAN [7]和 DSKG [25]。这些模型通常用于链接预测(link prediction)。感兴趣的读者可以参考最近的综述 [48, 80]。一个相关领域是网络嵌入 [26],它学习顶点表示以捕获它们的接近度(proximity)。然而,网络中的边带有单纯形(simplex)语义。这将网络嵌入与数据模型和学习技术中的 KG 嵌入区分开来。
数据集和评估指标。FB15K 和 WN18 是 KGs [5]中链接预测的两个基准数据集。一些研究注意到 FB15K 和 WN18 存在测试泄漏问题,并相应地构建了两个新的基准数据集 FB15K-237 [75]和 WN18RR [13]。评估中广泛使用三个指标:(i)正确链接在排名前 m m m的结果中的比例(称为 Hits@m,例如, m = 1 m = 1 m=1),(ii)正确链接的平均排名(MR),以及排名倒数的平均 (mean reciprocal rank, MRR)。在 [1, 62]中报告了评估链接预测模型的两项工作。
2.1.2 传统实体对齐
方法。传统方法主要从两个角度数解决实体对齐问题。一种是基于OWL 语义要求的 等 价 推 理 等价推理 等价推理[22, 34]。另一种是基于 相 似 度 计 算 相似度计算 相似度计算,比较实体的符号特征[39,65,70] 。最近的研究还使用统计机器学习 [15, 31, 32 ]和众包 [96]来提高准确性。此外,在数据库领域,检测重复实体,也就是记录链接或实体消解(entity resolution),已被广泛研究[16, 20]。这些方法主要依赖于实体的文字信息。
数据集和评估指标。自 2004 年以来,OAEI2(Ontology Alignment Evaluation Initiatives,本体对齐评估倡议)已成为本体对齐工作的主会场。近年来,它还组织了一个实体对齐的评估赛道。我们还没有发现任何基于嵌入的系统参与该赛道。首选的评估指标是精确率、召回率和 F1 分数。
2.1.3 基于嵌入的实体对齐
方法。许多现有的方法 [10, 47, 57, 58, 72, 73, 77, 93]采用平移模型(例如,TransE [5])学习基于关系三元组的实体嵌入,以用于对齐。最近的一些方法[8, 42, 81, 83, 85, 84, 88, 94] 采用图卷积网络 (GCN) [38, 78]。此外,一些方法结合了属性和值嵌入[ 9, 28, 72, 77, 83, 84, 87, 90 ] 。我们在2.2节中详细阐述这些方法所用的技术。此外,还有一些用于(异构信息)网络对齐[29, 44, 89 ]或跨语言知识投影[56]的方法,也可以对其修改以用于实体对齐。还值得注意的是,有两项研究 [14, 52] 为数据库中实体消解设计了基于嵌入的方法。它们基于词嵌入表示实体的属性值,并使用嵌入距离比较实体。但是,它们假设所有实体都遵循相同的模式,或者属性对齐必须是一对一的映射。由于通常使用不同的模式创建不同的 KG,因此很难满足这些要求。因此,它们不能应用于 KG 的实体对齐。
数据集和评估指标。据我们所知,没有广泛认可的基准数据集用于评估基于嵌入的实体对齐方法。可以说,更常用的数据集是 DBP15K [72] 和 WK3L [10]。然而,图 2显示它们的度数(degree)分布和平均度数与现实世界的 KG 有显著差异。有关我们数据集的更多详细信息,请参见第3节。类似于链接预测,主要用Hits@ m,MR 和 MRR作为评估指标,这里应该强调Hits@1,因为它相当于精确率。
图 2:先前方法中使用的两个流行数据集 DBP15K [72]和 WK3L [10]以及我们贡献的数据集 EN-FR-15K (V1)的度数分布和平均度数。x 轴表示度数,y 轴表示实体在度数上的百分比。这些数据集是从 DBpedia [40] 中提取的,但 DBP15K 和 WK3L 的度数分布与 DBpedia 有很大不同,它们的平均度数也更大。我们的数据集保留了与 DBpedia 相似的度数分布。
2.2 技术分类
表 1通过分析它们的嵌入和对齐模块以及它们交互的模式,对 23 种最近的基于嵌入的实体对齐方法进行了分类。关于符号,我们使用大写书法字母表示集合,使用粗体字母表示向量和矩阵。
表 1:2019 年 12 月之前发布的流行的基于嵌入的实体对齐方法的分类
2.2.1 嵌入模块
嵌入模块试图将 KG 编码到低维嵌入空间中。根据使用的三元组类型,我们将 KG 嵌入模型分为两种类型,即 关 系 嵌 入 关系嵌入 关系嵌入和 属 性 嵌 入 属性嵌入 属性嵌入。前者利用关系学习技术来捕获 KG 结构,后者利用实体的属性三元组。所有现有方法都采用关系嵌入。以下是三种代表性的实现方式:
基 于 三 元 组 的 嵌 入 基于三元组的嵌入 基于三元组的嵌入捕获关系三元组的局部语义。许多 KG 嵌入模型都属于这一类,它定义了一个能量函数来衡量三元组的合理性。例如,TransE [5]将关系解释为从其头实体嵌入到其尾实体嵌入的平移。关系三元组 ( e 1 , r 1 , e 2 ) ( e_1 , r_1 , e_2 ) (e1,r1,e2)的能量是
ϕ
(
e
1
,
r
1
,
e
2
)
=
∥
e
1
+
r
1
−
e
2
∥
,
\phi ( e_1 , r_1 , e_2 ) = \| \mathbf e_1 + \mathbf r_1 - \mathbf e_2 \|,
ϕ(e1,r1,e2)=∥e1+r1−e2∥,
其中
∥
⋅
∥
\| \cdot \|
∥⋅∥表示向量的
L
1
L_1
L1- 或
L
2
L_2
L2 -范数。TransE优化了
边
界
边界
边界(marginal)排名损失,以通过预定义的边界将正三元组与负三元组分开。损失函数的其他选择包括logistic损失 [54, 76]和基于限制(limit)的损失 [73, 91]。可以使用统一的负采样或
截
断
截断
截断(truncated)采样来生成负三元组。
基 于 路 径 的 嵌 入 基于路径的嵌入 基于路径的嵌入利用横跨关系路径的关系的长距离依赖性。关系路径是一组头尾相连的关系三元组,例如 ( e 1 , r 1 , e 2 ) , ( e 2 , r 2 , e 3 ) ( e_1 , r_1 , e_2 ) , ( e_2 , r_2 , e_3 ) (e1,r1,e2),(e2,r2,e3)。IPTransE [93] 通过推断直接关系和多跳路径之间的等价性来对关系路径进行建模。假设从 e 1 e_1 e1到 e 3 e_3 e3存在直接关系 r 3 r_3 r3。IPTransE 期望 r 3 r_3 r3的嵌入类似于路径嵌入,它被编码为其组成关系嵌入的组合:
r
∗
=
comb
(
r
1
,
r
2
)
,
r^* = \text{comb}( \mathbf r_1 , \mathbf r_2 ) ,
r∗=comb(r1,r2),
其中
comb
(
⋅
)
\text{comb}( \cdot )
comb(⋅)是一个序列合成操作,例如求和(sum)。最小化
∥
r
∗
−
r
3
∥
\|\mathbf r^∗ −\mathbf r_3 \|
∥r∗−r3∥以使它们相互接近。但是,IPTransE 忽略了实体。另一项工作,RSN4EA [24],修改循环神经网络 (RNN) 以将实体和关系的序列建模在一起。
基 于 邻 域 的 嵌 入 基于邻域的嵌入 基于邻域的嵌入使用由大量实体之间的关系构成的子图结构。GCN [6, 12, 38, 63]非常适合对这种结构进行建模,并且最近已用于基于嵌入的实体对齐 [8, 42, 81, 83, 84, 85, 87]。GCN 由多个图卷积层组成。令 A \mathbf A A表示 KG 的邻接矩阵, H ( 0 ) \mathbf H^{(0)} H(0)是一个特征矩阵,其中每一行对应一个实体。从第 i i i层到第 ( i + 1 ) ( i + 1) (i+1)层 [38]的典型传播规则是
H
(
i
+
1
)
=
σ
(
D
^
−
1
2
A
^
D
^
−
1
2
H
(
i
)
W
)
,
\mathbf H^{(i+1)} = \sigma (\hat{\mathbf D}^{-\frac{1}{2}} \hat{\mathbf A} \hat{\mathbf D}^{-\frac{1}{2}} \mathbf H^{(i)}\mathbf W ) ,
H(i+1)=σ(D^−21A^D^−21H(i)W),
其中
A
^
=
A
+
I
\hat{\mathbf A} = \mathbf A + \mathbf I
A^=A+I,
I
\mathbf I
I是单位矩阵。
D
^
\hat{\mathbf D}
D^是
A
^
\hat{\mathbf A}
A^的对角度数矩阵。
W
\mathbf W
W是可学习的权重矩阵。
σ
(
⋅
)
\sigma( \cdot )
σ(⋅)是激活函数,例如
tanh
(
⋅
)
\tanh( \cdot )
tanh(⋅)。
属
性
相
关
嵌
入
属性相关嵌入
属性相关嵌入考虑了属性之间的相关性。如果多个属性经常一起用于描述一个实体,则认为它们是相关的。 例如,经度与纬度高度相关,因为它们通常形成一个坐标。JAPE [72] 基于相似实体应该具有相似相关属性的假设,利用这种相关性进行实体对齐。 对于两个属性
a
1
,
a
2
a_1, a_2
a1,a2,它们相关的概率为
Pr
(
a
1
,
a
2
)
=
sigmoid
(
a
1
⋅
a
2
)
,
\Pr(a_1, a_2) = \text{sigmoid}(\mathbf a_1 \cdot \mathbf a_2),
Pr(a1,a2)=sigmoid(a1⋅a2),
其中属性嵌入可以通过最大化所有属性对的概率来学习。 这里,属性相关嵌入不考虑文字值。
文 字 嵌 入 文字嵌入 文字嵌入将文字值引入属性嵌入。AttrE [77] 提出了一种字符级编码器,它能够处理训练阶段未见的值。 令 v = ( c 1 , c 2 , … , c n ) v = (c_1, c_2, \ldots , c_n) v=(c1,c2,…,cn)为具有 n n n个字符的文字,其中 c i ( 1 ≤ i ≤ n ) c_i (1 \le i \le n) ci(1≤i≤n)是第 i i i个字符。AttrE 将 v v v嵌入为
v
=
comb
(
c
1
,
c
2
,
…
,
c
n
)
.
\mathbf v = \text{comb}(\mathbf c_1, \mathbf c_2, \ldots , \mathbf c_n).
v=comb(c1,c2,…,cn).
使用这种表示,文字被视为实体,并且像 TransE 这样的关系嵌入模型可用于从属性三元组中学习。 但是,基于字符的文字嵌入可能在跨语言设置中失败。
2.2.2 对齐模块
对齐模块使用种子对齐作为标记的训练数据来捕获实体嵌入的对应关系。两个关键是选择距离度量和设计对齐推理策略。
距离度量。 余弦、欧几里得和曼哈顿距离是三个广泛使用的度量。 在高维空间中,一些向量(称为枢纽hub [60])可能会作为其他向量的 k k k近邻重复出现,即所谓的枢纽问题 [11]。 见6.1节了解更多详情。
对齐推理策略。 当前所有方法都使用 贪 心 搜 索 贪心搜索 贪心搜索。 给定要对齐的 K G 1 \mathcal{KG}_1 KG1和 K G 2 \mathcal{KG}_2 KG2以及距离度量 π \pi π,对于每个实体 e 1 ∈ E 1 e_1 \in \mathcal E_1 e1∈E1,它通过 e 2 ~ = arg min e 2 ∈ E 2 π ( e 1 , e 2 ) \tilde{e_2} = \arg\min_{e_2\in\mathcal E_2} \pi(\mathbf e_1, \mathbf e_2) e2~=argmine2∈E2π(e1,e2)找到对齐的实体 e 2 ~ \tilde{e_2} e2~。 不同的是, 集 体 搜 索 集体搜索 集体搜索[37, 51] 旨在找到最小化 ∑ ( e 1 , e 2 ) ∈ S K G 1 , K G 2 π ( e 1 , e 2 ) \sum_{(e_1,e_2)\in \mathcal S_{\mathcal{KG}_1, \mathcal{KG}_2} }\pi(\mathbf e_1, \mathbf e_2) ∑(e1,e2)∈SKG1,KG2π(e1,e2)的全局最优对齐。 它可以建模为二分图(bipartite graph)中的最大权重匹配问题,并使用 Kuhn-Munkres 算法在 O ( N 3 ) O(N^3) O(N3)时间内解决( N = ∣ E 1 ∣ + ∣ E 2 ∣ N = |\mathcal E_1| + |\mathcal E_2| N=∣E1∣+∣E2∣),或使用启发式算法 [30] 减少到线性时间。 另一种解决方案是稳定婚姻算法[50]。 如果不存在一对彼此都比当前对齐的实体更喜欢对方的实体,则 E 1 \mathcal E_1 E1和 E 2 \mathcal E_2 E2之间的对齐满足稳定的婚姻。它的解决方案需要 O ( N 2 ) O(N^2) O(N2)时间 [17]。
2.2.3 交互模式
组合模式。 协调 KG 嵌入以进行实体对齐的四种典型设计如下: 嵌 入 空 间 变 换 嵌入空间变换 嵌入空间变换将两个 KG 嵌入到不同的嵌入空间中,并使用种子对齐学习两个空间之间的变换矩阵 M \mathbf M M,使得对于每个对齐对 ( e 1 , e 2 ) ∈ S K G 1 , K G 2 ′ (e_1,e_2)\in \mathcal S'_{ \mathcal{KG}_1,\mathcal{KG}_2} (e1,e2)∈SKG1,KG2′, M e 1 ≈ e 2 \mathbf M\mathbf e_1 \approx \mathbf e_2 Me1≈e2。 另一种组合模式将两个 KG 编码到一个统一的嵌入空间中。对于每个对齐对 ( e 1 , e 2 ) ∈ S K G 1 , K G 2 ′ (e_1,e_2)\in \mathcal S'_{ \mathcal{KG}_1,\mathcal{KG}_2} (e1,e2)∈SKG1,KG2′, 嵌 入 空 间 校 准 嵌入空间校准 嵌入空间校准最小化 ∥ e 1 − e 2 ∥ \|\mathbf e_1-\mathbf e_2\| ∥e1−e2∥以校准种子对齐的嵌入。 作为两种特殊情况, 参 数 共 享 参数共享 参数共享直接配置 e 1 = e 2 \mathbf e_1 = \mathbf e_2 e1=e2而 参 数 交 换 参数交换 参数交换交换三元组中的种子实体以生成额外的三元组作为监督。 例如,给定 ( e 1 , e 2 ) ∈ S K G 1 , K G 2 ′ (e_1,e_2)\in \mathcal S'_{ \mathcal{KG}_1,\mathcal{KG}_2} (e1,e2)∈SKG1,KG2′和 K G 1 \mathcal{KG}_1 KG1的关系三元组 ( e 1 , r 1 , e 1 ′ ) (e_1, r_1, e'_1) (e1,r1,e1′),参数交换产生一个新的三元组 ( e 2 , r 1 , e 1 ′ ) (e_2, r_1, e'_1) (e2,r1,e1′)并将其提供给 KG 嵌入模型作为一个实际的三元组。参数共享和交换方法都没有引入新的损失函数,但后者产生了更多的三元组。
学习策略。 根据如何处理标记和未标记数据,学习策略可以分为以下几种:
监 督 学 习 监督学习 监督学习利用种子对齐作为标记训练数据。 对于嵌入空间变换,使用种子对齐来学习变换矩阵。 对于空间校准,它用于让对齐的实体具有相似的嵌入。 但是,种子对齐的获取成本高且容易出错,尤其是对于跨语言的 KG。
半 监 督 学 习 半监督学习 半监督学习在训练中使用未标记的数据,例如自训练 [73, 93] 和协同训练 [9]。 前者迭代地提出新的对齐来增加种子对齐。后者结合了从两个不相交的实体特征集合中学到的两个模型,并交替增强了彼此的对齐学习。尽管 OTEA [58] 和 KECG [42] 声称它们是半监督方法,但它们的学习策略不增加种子对齐。本文中,我们不将它们视为标准的半监督学习。
无 监 督 学 习 无监督学习 无监督学习不需要训练数据。 我们没有观察到任何使用无监督学习的基于嵌入的实体对齐方法。 尽管 IMUSE [28] 声称它是一种无监督的方法,但它实际上使用了一种预处理方法来收集具有高字符串相似性的种子对齐。它的嵌入模块仍然需要种子对齐。
3. 数据集生成
如前所述,当前广泛使用的数据集与现实世界的 KG 有很大不同。 此外,由于候选空间大且未分区,因此基于嵌入的方法很难在完整的 KG 上运行。 因此,我们对现实世界的 KG 进行采样并提供两种数据规模(15K 和 100K)。
3.1 基于度数的迭代采样
我们在构建数据集时考虑了五个因素:源 KG、参考对齐、数据集大小、语言和密度,其中最后一个对于构建数据集更具挑战性。具体来说,我们希望从源 KG 生成一定大小的数据集,使得它们的实体度数分布的差异不超过一个期望值。 困难在于从源 KG 中移除一个实体也会改变其相邻实体的连通性。
我们提出了一种基于度数的迭代采样(IDS)算法,该算法同时删除两个具有参考对齐的源KG 中实体,直到达到所需的大小,同时保持每个采样数据集与源 KG 的度数分布相似。 算法 1 描述了采样过程。 在迭代过程中,当前数据集中度数为 x x x的实体的比例,用 P ( x ) P(x) P(x)表示,并不总是等于原始比例 Q ( x ) Q(x) Q(x)。 我们通过 d s i z e ( x , μ ) = μ ( 1 + P ( x ) − Q ( x ) ) dsize(x, \mu) = \mu(1+P (x)−Q(x)) dsize(x,μ)=μ(1+P(x)−Q(x))调整要删除的实体大小,其中 μ \mu μ是基本步长大小(参见第 7 行)。 此外,我们不希望删除对整体度数分布有很大影响的实体,例如度数高的实体。 为了实现这一点,我们利用 PageRank 值来衡量实体被删除的概率(第 8 行)。
1 只保留对齐实体,没有对齐实体的在这一步都删掉。
我们使用 Jensen-Shannon (JS) 散度(divergence) [46] 来评估两个度数分布的差异(第 12 行)。 给定两个度数分布
Q
Q
Q和
P
P
P,它们的 JS散度为:
J
S
(
Q
,
P
)
=
1
2
∑
x
=
1
n
(
Q
(
x
)
log
Q
(
x
)
M
(
x
)
+
P
(
x
)
log
P
(
x
)
M
(
x
)
)
,
JS(Q, P ) = \frac{1}{2} \sum_{x=1}^n \left(Q(x) \log \frac{Q(x)}{M(x)} + P(x)\log \frac{P(x)}{M(x)}\right),
JS(Q,P)=21x=1∑n(Q(x)logM(x)Q(x)+P(x)logM(x)P(x)),
其中
Q
(
x
)
Q(x)
Q(x)和
P
(
x
)
P(x)
P(x)分别表示
P
P
P和
Q
Q
Q中度数为
x
(
x
=
1
…
n
)
x (x = 1 \ldots n)
x(x=1…n)的实体的比例, 且
M
=
Q
+
P
2
M = \frac{Q+P}{2}
M=2Q+P。
Q
Q
Q和
P
P
P之间一个小的 JS散度表明它们具有相似的度数分布。我们设定期望
ϵ
≤
5
%
\epsilon\le 5\%
ϵ≤5%。IDS 代价最高的部分是在删除实体的迭代过程中计算 PageRank 权重。 它可以通过使用近似算法 [2] 扩展到非常大的 KG。
3.2 数据集概述
我们选择三个著名的 KG 作为我们的源:DBpedia (2016-10) [40]、Wikidata (20160801) [79] 和 YAGO 3 [61]。此外,我们考虑了 DBpedia 的两个跨语言版本:英语-法语和英语-德语。我们遵循 [10, 72, 73, 81, 93] 中的约定,使用 IDS 算法生成具有 15K 和 100K 实体的两种大小的数据集。具体来说,我们利用 DBpedia 的跨语言链接和 owl:sameAs 在三个 KG 中检索参考实体对齐。 为了平衡效率和删除安全性,我们为15K设置 μ = 100 \mu = 100 μ=100,为 100K 设置 μ = 500 \mu = 500 μ=500。
数据集的统计数据列于表 2。我们为每对源 KG 生成两个版本的数据集。V1是直接使用IDS算法得到的。 对于V2,我们首先随机删除源KG中度数较低( d ≤ 5 d\le5 d≤5)的实体,使平均度数翻倍,然后在新的KG上执行IDS。 因此,V2 的密度是 V1 的两倍,并且更类似于现有的数据集 [10, 72]。图 3 显示了 EN-FR-15K (V1, V2) 和 EN-FR-100K (V1, V2) 的度数分布和平均度数。 我们的 15K 和 100K 数据集更接近源 KG。
表 2:数据集统计
图 3:我们采样得到的数据集 EN-FR-15K(V1,V2)和 EN-FR-100K(V1,V2)与 DBpedia(源 KG)的度数分布和平均度数的比较
对于每个数据集,我们还提取实体的属性三元组以满足某些方法的输入要求 [9, 28, 72, 77, 81, 83, 85, 90]。 考虑到 DBpedia、Wikidata 和 YAGO 从非常相似的来源(主要是 Wikipedia)收集数据,对齐的实体通常具有相同的标签。 它们将成为实体对齐的“棘手”特征,并影响对实际性能的评估。根据[95]中的建议,我们删除了实体标签。
按照惯例,我们将数据集拆分为训练集、验证集和测试集。 详细信息在第 5.1节中给出。
3.3 数据集评估
我们评估 IDS 和我们数据集的质量。 请注意,生成实体对齐数据集是一项艰巨的工作,因为合格的数据集需要具有几个特征,例如良好的连通性(由于许多方法依赖于图结构),与原始 KG 相似的度数分布(对于现实的实体对齐场景)和足够的对齐(用于训练/验证/测试)。 据我们所知,目前还缺乏专门针对这个问题的采样方法。为了评估,我们在现有图采样算法[41]的基础上设计了两种基线方法:
- 随 机 对 齐 采 样 随机对齐采样 随机对齐采样(RAS)首先随机选择两个 KG 间固定大小(例如,15K)的实体对齐,然后提取其头尾实体都在采样实体中的关系三元组。
- 基 于 P a g e R a n k 的 采 样 基于 PageRank 的采样 基于PageRank的采样 (PRS) 首先根据 PageRank 分数从一个 KG 中采样实体(丢弃未参与任何对齐的实体),然后从另一个 KG 中提取这些实体的对应项。
表 3 列出了由 RAS、PRS 和我们的 IDS 生成的 EN-FR-15K (V1) 数据集的属性,以及与源KGs(关系三元组)的比较。 除了平均度数和 JS 散度之外,我们还进一步考虑了两个指标:孤立实体的百分比 [19] 和聚类系数 [41]。RAS 的数据集比源数据集稀疏得多,因为随机采样无法保留连通性和度数分布 [69]。 它具有低聚类系数并包含许多孤立的实体,嵌入模块通常难以处理这些实体。PRS 更侧重于高度数实体并比 RAS 获得更好的属性。 然而,由于平均度数低、JS值高、孤立实体比例高,该数据集仍远不能令人满意。 这是因为它的实体选择过程只适用于一个 KG,而不是两个 KG。 不同的是,IDS 将两个 KG 的度数分布一起考虑。它倾向于对具有相似度的两个对齐实体进行采样。因此,我们数据集的两个 KG 具有相似的聚类系数。 由于采样数据集比源数据集小得多,因此很难很好地保持所有这些属性。IDS表现出良好的综合性能。
表 3:比较由RAS、PRS 和 IDS 生成的 EN-FR-15K (V1) 数据集
4. 开源库
我们使用 Python 和 TensorFlow 开发了一个开源库,即 OpenEA,用于基于嵌入的实体对齐。 软件架构如图 4 所示。我们的设计目标和特点包括三个方面:
图 4:OpenEA 的软件架构
松耦合。 嵌入和对齐模块的实现是相互独立的。OpenEA 提供了一个框架模板,带有预定义的输入和输出数据结构,以使这些模块作为一个集成管道。 用户可以在这些模块中自由调用和组合不同的技术来开发新的方法。
功能性和可扩展性。OpenEA 实现了一组必要的函数作为其底层组件,包括嵌入模块中的初始化函数、损失函数和负采样方法,交互模式下的组合与学习策略,以及对齐模块中的距离度量和对齐推理策略。 除此之外,OpenEA 还提供了一组灵活的高级函数,并带有配置选项来调用这些组件。通过这种方式,可以通过添加新的配置选项轻松集成新函数。
现成的方法。为了方便 OpenEA 的使用并支持我们的实验研究,我们尽最大努力集成或重建 12 种具有代表性的基于嵌入的实体对齐方法,这些方法属于广泛的技术,包括 MTransE、IPTransE、JAPE、KDCoE、BootEA、GCNAlign、AttrE、IMUSE、SEA、RSN4EA、MultiKE 和 RDGCN。MTransE、JAPE、KDCoE、BootEA、GCNAlign、AttrE、RSN4EA、MultiKE和 RDGCN 是通过整合他们的源码实现的,而IPTransE、IMUSE和SEA是我们自己重建的。 此外,我们集成了几个尚未探索用于实体对齐的关系嵌入模型,包括三个平移模型 TransH [82]、TransR [49] 和 TransD [33],三个语义匹配模型 HolE [54]、SimplE [36] 和 RotatE [71],以及两个深度模型 ProjE [66] 和 ConvE [13]。我们还基于预训练的多语言词嵌入 [4] 集成了两个属性嵌入模型 AC2Vec [72] 和 Label2Vec [90]。TransH、TransR、TransD和HolE是参考开源工具包OpenKE[27]开发的,其余的都是基于他们的源代码实现的。
5. 实验和结果
在本节中,我们使用我们的基准数据集和开源库报告了一个综合评估。
5.1 实验设置
环境。 我们在配备 Intel Xeon E3 3.3GHz CPU、128GB 内存、NVIDIA GeForce GTX 1080Ti GPU 和 Ubuntu 16.04 的工作站上进行实验。
交叉验证。 我们使用 5 折交叉验证进行实验,以确保无偏的评估。 具体来说,我们将参考实体对齐分为五个不相交的部分,每个部分占总数的 20%。 对于每次运行,我们选择一个(20%)作为训练数据,剩下的用于验证(10%)和测试(70%)。 正如在 [10] 中发现的那样,多语言维基百科中的跨语言链接覆盖了大约 15% 的实体对齐。 因此,使用 20% 作为训练数据既可以满足 5 折交叉验证的需求,又符合现实世界。
比较方法和设置。 我们评估了 OpenEA 中实现的所有基于嵌入的实体对齐方法。 为了进行公平比较,我们尽最大努力统一实验设置。 表 4 显示了用于所有方法的通用超参数。如[35]所示,批量大小对性能和运行时间有影响。 因此,我们对关系三元组使用固定的批量大小以避免其干扰。 对于每种方法特有的其他设置,我们尽可能仔细地遵循文献中报告的细节,例如,IPTransE 和 AttrE 中排名损失的边界是1.5,GCNAlign 和 RDGCN 中的 GCN 层数为 2。对于几个关键的超参数和未报告的超参数,我们尽力调参。 例如,对于许多方法,例如 IMUSE,我们将实体嵌入的 L 2 L_2 L2范数限制为 1,因为我们发现这种归一化会产生更好的结果。对于跨语言数据集,我们使用预训练的跨语言词嵌入 [4] 来为使用属性值的方法初始化文字嵌入。我们数据集上每种方法的超参数设置都可以在线获得。请注意,有一些与本文同时出现的方法(例如 AliNet [74])。 我们将相应地将这些方法包含在 OpenEA 的未来版本中。
表 4:所有方法的通用超参数
评估指标。 在我们的实验中,默认的对齐方向是从左到右。 以 D-W 为例。我们将 DBpedia 视为源并将其与目标 KG Wikidata 对齐。 按照惯例,我们使用 Hits@m (m = 1, 5)、MR 和 MRR 作为评估指标。
可用性。 我们在线发布数据集和 OpenEA 库。 使用所有指标对每个数据集进行五折的实验结果以 CSV 格式提供。 随着新方法的出现,所有内容都将得到适当的更新。
5.2 主要结果和分析
表 5:当前代表性方法在 15K 和 100K 数据集上的交叉验证结果
表 5 描述了我们数据集上 12 种实现的方法的 Hits@1、Hits@5 和 MRR 结果。 综上所述,RDGCN、BootEA 和 MultiKE 取得了前 3 名的成绩。为了全面彻底的理解,我们从五个角度分析结果:
稀疏数据集(V1)与稠密数据集(V2)。 从表 5 中,我们发现大多数基于关系的方法在稠密数据集上比在稀疏数据集上表现更好,例如 IPTransE、BootEA、SEA 和 RSN4EA。 这符合我们的直觉,即稠密数据集中的实体是通常涉及更多的关系三元组,这使这些方法能够捕获更多的语义信息。 对于考虑属性三元组的方法,KDCoE、GCNAlign、AttrE、IMUSE 和 RDGCN 在稠密数据集上的表现也更好,这表明关系嵌入仍然有贡献。 不同的是,MultiKE 依赖于特征的多个“视图”,这使得它对关系变化相对不敏感。有趣的是,我们还看到两种基于关系的方法 MTransE 和 JAPE 在一些稠密数据集上的性能下降。我们认为这是因为它们是基于TransE的,它在处理稠密数据集中的多映射关系方面存在不足,例如 EN-FR-100K (V1) 中 39.0% 的实体具有多映射关系,而在 EN-FR-100K (V2) 高达 71.2%。复杂的结构使得 MTransE 和 JAPE 容易为涉及相同多映射关系的不同实体学习非常相似的嵌入 [49, 82]。
为了进一步分析,我们根据对齐度数将每个数据集的测试对齐分为多个组。对齐度数定义为两个相关实体的关系三元组之和。 图 5 说明了 EN-FR-15K (V1) 上的召回结果。 显然,大多数实体的关系三元组相对较少,我们称它们为长尾实体。 我们发现所有基于关系的方法在将实体与丰富的关系三元组对齐时运行得更好,而它们在长尾实体上的结果下降,因为长尾实体几乎没有对学习有用的信息,这限制了它们嵌入的表达能力。 这种不平衡的表现从另一个角度证实了稀疏和稠密数据集的结果。 通过使用额外的文字,KDCoE、AttrE、IMUSE、MultiKE 和 RDGCN 的不平衡性能得到缓解。 但是,使用属性相关性的 JAPE 和 GCNAlign 对于不同度数的实体仍然表现出不平衡的性能。 在其他数据集上的实验也与上述观察结果一致。 目前,我们还没有看到能够很好地处理长尾实体的方法。
图 5:EN-FR-15K (V1) 上关于对齐度数的召回率
15K 数据集与 100K 数据集。 我们观察到,除了 D-Y 数据集之外,所有方法在 15K 数据集上的性能都优于在 100K 数据集上,因为 100K 数据集具有更复杂的结构,这导致基于嵌入的方法难以捕获实体接近度。 例如,EN-FR-15K (V1) 中 34.9% 的实体涉及多映射关系,而 EN-FR-100K (V1) 中的比例达到 39.0%。 正如我们所讨论的,多映射关系挑战了许多嵌入方法。 此外,100K 数据集比 15K 数据集具有更大的候选对齐空间。 从具有更多负例的更大候选空间中将目标实体排名在顶部更难。 不同的是,D-Y-15K 和 D-Y-100K 与YAGO 中的关系数量非常相似,这使得结果与其他数据集上的结果不同。
关系与属性。 对于纯粹基于关系的方法,一种关系嵌入技术没有比另一种更明显的优势。 例如,虽然 MTransE 和 BootEA 都使用 TransE,但它们的性能处于两个极端。 我们认为,BootEA 中的负采样做出了很大贡献,并且仅使用正样本训练嵌入容易出现过拟合。[7] 中的工作还表明,负采样可以在很大程度上影响 KG 嵌入的表达能力。 我们将负采样与边界排名损失一起应用于 MTransE,发现其在 EN-FR-15K (V1) 上的 Hits@1 上升到 0.271,这进一步证明了负采样的有效性。 此外,BootEA 的引导(bootstrapping) 策略也有很大贡献,这将在后面讨论。 再举一个例子,IPTransE 和 RSN4EA 都通过将关系三元组链接到长关系路径来扩展基于三元组的嵌入,但它们的结果也有很大不同。 这是因为 RSN4EA 的循环跳接网络(recurrent skipping network)比 IPTransE 的浅层组合更强大。
对于使用属性的方法,我们将它们与没有属性嵌入的变体进行比较。 图 6 显示了 D-W-15K (V1) 和 D-Y-15K (V1) 上的 Hits@1 结果。其他数据集显示了类似的结果。 在 D-Y 上,我们没有观察到 JAPE 和 GCNAlign 通过使用属性相关性来聚类实体的显著改进。 如果没有预先对齐的属性,这种技术将无法捕获不同 KG 之间的属性相关性。 此外,即使发现了属性相关性,该信号也过于粗粒度,无法确定两个具有相关属性的实体是否对齐。 不同的是,文字嵌入为除 IMUSE 之外的大多数方法带来了显著改进,表明对于实体对齐来说,文字是比属性相关性更强的信号。IMUSE 有一个预处理步骤,使用文字来查找新的实体对齐以增加训练数据。 但是,新对齐中的错误也会损害性能。 大多数方法都无法通过 D-W 上的属性嵌入来改进。Wikidata 中属性的符号异质性(例如,属性的本地名称是数字 ID)明显挑战了一些方法,因为它们无法自动找到高质量的属性对齐以进行文字比较。 总体而言,属性异质性对捕获属性相关性有很强的影响,而文字嵌入有助于实体对齐。
图 6:JAPE、GCNAlign、KDCoE、AttrE、IMUSE、MultiKE、RDGCN 及其没有属性嵌入的退化变体的 Hits@1 结果
半监督学习策略。 我们通过分析增强种子对齐的质量来进一步研究这些半监督学习策略的优势和局限性。 图 7 描述了 IPTransE、BootEA 和 KDCoE 在 EN-FR-100K (V1) 上进行半监督训练期间的精度、召回率和 F1 分数,其他数据集也显示出类似的结果。IPTransE 未能达到良好的性能,因为它在自训练的过程中涉及许多错误,但没有设计一种机制来消除这些错误。KDCoE 通过共同训练两种正交类型的特征(即关系三元组和文本描述)来传播新的对齐。 然而,许多实体缺乏文本描述,从而阻止 KDCoE 找到对齐的种子以增加训练数据。 因此,其策略并没有带来显著的改善。BootEA 采用启发式编辑方法来消除错误对齐。 在经历了一段波动之后,在自训练过程中,准确率保持稳定,而召回率继续增长,带来了明显的性能提升。 我们还对 BootEA 进行了消融研究,发现它的自训练策略可以在 V1 数据集上带来超过 0.086的Hits@1改进,证明了它的有效性。 因此,增强实体对齐的数量和质量对半监督方法有很大影响。 更高精度的更大数量增强对齐会带来更好的性能。
图 7:在 EN-FR-100K (V1) 上迭代期间增强对齐的精度、召回率和 F1 分数
运行时间比较。 在图 8 中,我们简要比较了 V1 数据集上五次重复的平均运行时间。 不同方法使用的时间差别很大。 一般来说,一种方法在 100K 数据集上比在 15K 数据集上运行需要更多时间。BootEA 比其他方法慢得多。 例如,它在 EN-FR-15K (V1) 和 EN-FR-100K (V1) 上的运行时间分别为 2,260 和 26,939 秒,其中截断负采样和引导步骤分别耗费超过 23.5% 和 13.3%的时间。RSN4EA 也使用了很多时间,尤其是在 15K (V1) 数据集上,因为它使用多跳路径进行训练,远远超过关系三元组(即单跳路径)。 例如,EN-FR-15K (V1) 中的两跳路径数为 500,260,是关系三元组 (88,198) 的五倍。 至于 KDCoE 和 AttrE,它们的大量时间都花在了对文字信息进行编码上。 例如,在 KDCoE 中,训练描述的时间至少占 26.3%。 相比之下,GCNAlign 和 MTransE 使用的时间要少得多,因为它们只使用关系三元组并且还具有轻量级的模型复杂性。 因此,我们认识到使用辅助信息或技术来提高性能通常会增加训练时间。 总体而言,MultiKE 在有效性和效率之间取得了很好的平衡,因为它的多视图有区别性的特征使其能够快速收敛以进行实体对齐。
图 8:V1 数据集上的运行时间(以对数为单位)
6. 探索性实验
6.1 几何分析
除了性能比较之外,我们在此关注实体嵌入的几何特性,以了解这些嵌入如何支持实体对齐性能和现有方法的潜在局限性。
6.1.1 相似度分布
给定实体嵌入,对齐推理算法通过嵌入空间中的最近邻搜索来识别对齐的实体。 研究每个实体及其跨 KG 范围内最近邻的相似度分布是很有趣的。 为此,我们在图 9 中可视化了源 KG 的实体与其在 D-Y-15K (V1) 上的目标 KG 的前 5 个最近邻之间的平均相似度。 为了使所有方法的相似度具有可比性,我们选择余弦相似度作为度量。 结果显示了两个有趣的发现:
图 9:D-Y-15K (V1) 数据集上实体与其前 5 个跨 KG最近邻之间的相似性的可视化。 从上到下的五行分别对应第一个到第五个最近邻的相似度。 较深的颜色表示较大的相似性。
首先,不同方法的源实体与其top-1最近邻(top-1相似性)之间的平均相似度差异很大。BootEA、KDCoE、MultiKE 和 RDGCN 产生了非常高的 top-1 相似性,而 IPTransE 和 RSN4EA 则相反。 直观地说,top-1 相似度高表明质量更好,因为它可以反映实体嵌入捕获两个 KG 之间对齐信息的信心程度。 大多数 top-1 相似度较高的方法,例如 BootEA、MultiKE 和 RDGCN,在实体对齐方面也取得了良好的性能(见表 5)。 对于 KDCoE,如图 7 所示,其增强对齐的低精度使其 top-1 实体对齐包含许多错误。 因此,它的性能不如 BootEA。 但它仍然优于许多其他方法,因为它的描述和关系嵌入是互补的,因此可以帮助找到一些正确的对齐。
其次,前5个最近邻之间的相似性方差也有很大差异,这可以通过从上到下的五行颜色梯度来体现。BootEA、KDCoE、RSN4EA 和 RDGCN 的差异很大,而 MTransE、IPTransE 和 JAPE 的差异非常小。小的相似性方差意味着最近邻之间的区分度不强,不足以正确识别出实体的对应实体。MTransE 中的过拟合问题、IPTransE 中的引导错误和JAPE 中的模糊实体聚类是其无区分性嵌入的原因。 其他数据集显示出类似的分布。 实体对齐的理想相似度分布是保持较高的 top-1 相似度和较大的相似度方差。
6.1.2 枢纽性和孤立
枢纽性(hubness) 是高维向量空间中的一种常见现象[60],其中一些点(称为枢纽hub)经常作为向量空间中许多其他点的top-1最近邻出现。 另一个现象是,任何点聚类中都会存在一些孤立的异常值。 这两个问题对依赖最近邻搜索的任务有负面影响 [11, 55]。 在这里,我们调查基于嵌入的实体对齐是否也受到它们的影响。 我们分别测量作为源实体最近邻出现 0次、1 次和多次的目标实体的比例。 图 10 显示了 D-Y-15K (V1) 上的结果,其他数据集也显示了类似的结果。令人惊讶的是,我们发现有很大一部分目标实体从未作为任何源实体的top-1最近邻出现(用橙色条标记)。 这意味着,如果我们使用贪心策略选择top-1最近邻来形成对齐,则可能永远不会考虑这种孤立的实体。 因此,我们会错过很多正确的实体对齐。 作为多个源实体的最近邻出现的实体(蓝色和灰色条)也占据相当大的比例。 它们会导致许多违反 1 对 1 映射约束的行为,并在全局范围内增加对齐推断的不确定性。我们观察到产生较少孤立实体和枢纽实体的方法,例如 MultiKE 和 RDGCN,实现了实体对齐的领先性能,反之亦然。因此,理想的情况是拥有小比例的孤立实体和枢纽实体。 这一发现表明,我们可以通过枢纽性和孤立分析来估计最终的实体对齐性能。
图 10:目标实体在 D-Y-15K (V1) 上作为最近邻出现 0次、1 次和多次的比例
为了解决枢纽和孤立问题,我们探索了跨域相似度局部缩放(cross-domain similarity local scaling, CSLS)[11]作为替代指标。 它根据嵌入邻居的密度对源和目标实体嵌入的相似度进行归一化。 以余弦为例,我们有
CSLS
(
x
s
,
x
t
)
=
2
cos
(
x
s
,
x
t
)
−
ψ
t
(
x
s
)
−
ψ
s
(
x
t
)
,
\text{CSLS}(\mathbf x_s, \mathbf x_t) = 2 \cos(\mathbf x_s, \mathbf x_t) − \psi_t(\mathbf x_s) −\psi_s(\mathbf x_t),
CSLS(xs,xt)=2cos(xs,xt)−ψt(xs)−ψs(xt),
其中
ψ
t
(
x
s
)
\psi_t(\mathbf x_s)
ψt(xs)表示源实体
x
s
\mathbf x_s
xs与其在目标 KG 中的前
k
k
k个最近邻之间的平均相似度。
ψ
s
(
x
t
)
\psi_s(\mathbf x_t)
ψs(xt)可以对称计算得到。CSLS 减少了枢纽实体和其他实体之间的相似性。它还可以让一些孤立的实体在测试中得到公平的考虑,因为它们通常受到较少的相似度惩罚。因此,我们使用 CSLS 来增强传统的距离度量。 此外,我们还考虑使用稳定匹配(又名稳定婚姻)从全局角度检索实体对齐,而不是基于最近邻搜索的贪心策略。当不存在另一个比
e
1
e_1
e1和
e
2
e_2
e2当前匹配更高偏好的预测对齐对
(
e
1
,
e
2
)
(e_1, e_2)
(e1,e2)时,两个KG之间的实体对齐是稳定的。偏好可以基于诸如 CSLS 之类的相似性度量来计算。
我们在表 6 中报告了由 CSLS 和稳定匹配(简称 SM)增强的 Hits@1 结果。我们发现 CSLS 为贪心策略带来了显著的收益,特别是在 MTransE、JAPE、GCNAlign 和 AttrE 上。 这是因为 CSLS 可以帮助缓解枢纽现象。 此外,SM进一步带来了改进。 例如,与贪心策略相比,它在 MTransE、JAPE、KDCoE、GCNAlign、AttrE、IMUSE、SEA 和 RotatE 的 Hits@1 上产生超过 10% 的收益。 原因在于 SM 可以考虑所有实体,包括孤立的实体。 有趣的是,我们观察到 CSLS 并没有提高 SM 的性能。 这表明 SM 较少依赖距离度量。我们在其他数据集上获得了类似的结果。 总而言之,现有方法专注于开发更强大的嵌入和交互方法,但对齐模块的一些方法也可以提高性能。
表 6:D-Y-15K (V1) 上关于距离度量和对齐推理策略的Hits@1
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ihK0rAMj-1654604521140)(https://docimg10.docs.qq.com/image/067G-JTjTqkCTo2LYPwOGA.png?w=561&h=263)]
6.2 未探索的 KG 嵌入模型
如2.1节所总结的,大多数现有方法使用 TransE [5] 或 GCNs [38] 进行 KG 嵌入,因为它们具有很强的鲁棒性和良好的泛化性。 然而,许多其他的 KG 嵌入模型还没有被探索用于实体对齐。 为了填补这一空白,我们评估了三个翻译模型 TransH [82]、TransR [49] 和 TransD [33],两个深度模型 ProjE [66] 和 ConvE [13],以及三个语义匹配模型 HolE [54],SimplE [36] 和 RotatE [71],用于实体对齐。 我们选择 MTransE 作为基线,并将其关系嵌入模型 TransE替换为上述模型。 我们在图11中报告了 V1 数据集上的 Hits@1 结果。其他结果可在线获得。TransR和HolE的结果省略掉了,因为它们的Hits@1分数在大多数数据集上小于 0.01。
图 11:未探索的 KG 嵌入模型在 15K (V1) 和 100K (V1) 数据集上的交叉验证结果
我们可以看到,改进的平移模型 TransH 和 TransD 在所有数据集上都表现出稳定且有希望的性能。 具体来说,在 100K 数据集上,TransH 比 MTransE 更鲁棒,并获得更好的结果。 这是因为 TransH 更好地处理了多映射关系,并且还使用负采样来增强嵌入。不同的是,我们发现 TransR 未能取得可喜的结果。TransR 中实体嵌入的关系特定转换需要关系对齐以在实体之间传播对齐信息。 然而,在我们的问题设置中,由于 KG 模式之间的巨大异质性,我们专注于实体对齐并且不提供关系对齐。神经模型 ConvE 和 ProjE 在我们的大多数数据集上也显示出较好的结果。 然而,我们发现它们在 D-Y-15K (V1) 上表现不佳。 我们将其归因于较少的关系三元组以及这些数据集中关系数目之间的巨大差距。ConvE 的二维卷积或 ProjE 的非线性变换很难在这种异构 KG 中捕获实体和关系嵌入之间的相似交互。 对于语义匹配模型,非欧几里得嵌入模型 RotatE 比 SimplE 实现了更好的性能。 它也优于其他模型。 总之,并不是所有的 KG 嵌入模型都适合实体对齐,非欧式嵌入值得进一步探索。
6.3 与传统方法的比较
我们将 OpenEA 与两种著名的 KG 对齐开源传统方法进行比较,即语义 Web 社区的 LogMap [34] 和数据库社区的 PARIS [70]。LogMap 是一个本体匹配系统,内置推理和不一致性修复能力。PARIS 是一种基于概率估计对齐 KG 的整体解决方案。 使用谷歌翻译将跨语言数据集中的非英语 KG 翻译成英语,以消除 LogMap 和 PARIS 的语言障碍。
整体比较。 表 7 比较了 LogMap、PARIS 和 OpenEA 中基于嵌入的最佳方法。 对于 OpenEA 的测试阶段,由于每个源实体都有一个候选列表,因此准确率、召回率和 F1 分数实际上等于 Hits@1。 所有这些方法都取得了很好的效果,其中 PARIS 在我们的大多数数据集(包括 EN-FR、EN-DE 和 D-W)上表现最好,而 LogMap 在 D-Y 上取得了较好的表现。 总体而言,OpenEA 没有显示出超过传统方法 PARIS 和 LogMap 的优势。 我们认为这是因为当前基于嵌入的方法主要致力于学习表达嵌入以捕获实体特征,却忽略了对齐推断。正如2.2.2节中总结的那样,它们的对齐推理策略基于成对相似度比较,缺乏LogMap和PARIS所具备的不一致性修复和整体估计能力。 我们在 6.1 节的几何分析中进一步表明,这种弱点会导致枢纽性和孤立性问题,从而降低实体对齐性能。 通过解决这个问题,如表 6 所示,OpenEA (RDGCN) 在 DY-15K (V1) 上实现了更好的 Hits@1(精度),并优于表 7 中LogMap 和 PARIS。我们的实验表明基于嵌入的实体对齐 方法需要进一步改进对齐推理。 此外,我们注意到 LogMap 无法在 D-W 数据集上输出实体对齐。 这是因为 LogMap 高度依赖 URI 中的本地名称来计算相似度,而 Wikidata 中的 URI 没有实际含义(例如,https://www:wikidata:org/wiki/Property:P69)。 事实上,所有方法在 D-W 上的结果都严重下降。符号异质性给传统方法和基于嵌入的方法带来了巨大障碍。
表 7:在 15K 和 100K 数据集上与传统方法的比较
特征研究。 表 8 显示了仅给定 EN-FR-15K (V1) 的关系或属性三元组时 LogMap 和 PARIS 以及三个基于嵌入的最佳方法 RDGCN、BootEA 和 MultiKE 的结果。LogMap 和 PARIS 依赖于属性三元组,在仅使用关系三元组的情况下无法输出对齐。 这与所有使用关系三元组的基于嵌入的方法不同。 在仅使用关系三元组的情况下,BootEA 不受缺少属性三元组的影响。MultiKE 和 RDGCN 的性能大大下降,因为在这种情况下它们的属性嵌入模块被禁用。 然而,他们的关系嵌入模块仍然可以学习嵌入。 仅使用属性三元组时,LogMap 的结果几乎保持不变,因为它主要使用属性三元组来计算实体相似度。PARIS 的召回率急剧下降,因为它不能使用关系推理来找到更多的实体对齐。 但是它的精度仍然很高,甚至比表 7 中的要好一点。考虑到 PARIS 不是为关系推理而设计的,关系三元组可能会给这种方法带来噪音。 至于基于嵌入的方法,RDGCN 和 BootEA 无法在没有关系三元组的情况下学习嵌入。 多视图方法 MultiKE 也出现性能损失,因为它无法从关系嵌入中受益。 本实验揭示了这些实体对齐方法的不同应用场景。 传统方法更好地支持具有属性信息的实体对齐场景。基于嵌入的方法涵盖了大多数具有关系信息、属性信息或两者兼有的典型场景。
表 8:在 EN-FR-15K (V1) 上与使用不同特征的传统方法的比较
预测对齐分析。 为了进一步研究基于嵌入的方法和传统方法的潜在互补性,我们在图 12 中显示了 OpenEA (RDGCN)、LogMap 和 PARIS 在 EN-FR-100K (V1) 上发现的正确对齐的比例。 他们都面临着同样的挑战(符号异质性)。 我们发现它们可以产生互补的实体对齐。 该分析需要一个基于传统和基于嵌入技术的实体对齐混合系统。
图 12:LogMap、PARIS 和 OpenEA 在 EN-FR-100K (V1) 上找到的正确对齐比例。 OpenEA 还分别找到了 LogMap 和 PARIS 未找到的 13.25% (3.50% + 9.75%) 和 7.51% (3.50% + 4.01%) 的对齐。 此外,6.41% 的对齐任何方法都没有找到,而 45.56% 的对齐所有三种方法全部找到。
7. 总结和未来方向
7.1 实验总结
从我们的实验结果中,我们发现 (i) RDGCN、BootEA 和 MultiKE 实现了最具竞争力的性能。 这表明结合文字信息和精心设计的引导可以帮助实体对齐。(ii) 对于为链接预测设计的嵌入模型,我们发现并非所有模型都适合实体对齐。(iii) 目前,对齐推理策略很少受到关注。 我们的初步结果表明,CSLS 距离度量和稳定的匹配策略可以为所有方法带来性能提升。(iv) 我们还发现基于嵌入和传统的实体对齐方法是相辅相成的。(v) 为了根据实际场景中的可用资源选择合适的方法,表 9 总结了我们实验分析中基于嵌入和传统实体对齐方法的所需信息。
表 9:基于嵌入和传统实体对齐方法所需信息的总结
7.2 未来方向
无监督实体对齐。 正如 2.2.3 节中所总结和 5.2 节中所讨论的,所有当前的方法都需要种子对齐作为监督。 然而,在现实世界中有时很难满足这一要求。因此,研究无监督实体对齐是一个有意义的方向。 一种可能的解决方案是合并辅助特征或资源,并从中提取远程监督,例如有区别性的特征(人员主页和产品介绍图片)和预训练的词嵌入 [87]。 此外,诸如正交 Procrustes [64] 和对抗训练 [23] 等无监督跨语言单词对齐 [11] 的最新进展也值得研究。另一种可能的解决方案是使用主动学习 [32, 59] 或溯因学习 [92] 来减少数据标记的负担。
长尾实体对齐。 我们对稀疏和稠密数据集的实验分析揭示了对齐长尾实体的困难,这通常在 KG [43] 中占很大比例。 要嵌入长尾实体,除了使用更高级的图神经网络 [38, 63, 78] 之外,注入更多特征,如多模态数据和类别信息也将有所帮助。 由于 KG 远未完备,通过统一框架联合训练链接预测和实体对齐,可能会利用到这两个任务的附带监督。 从开放的网络中提取额外的信息来丰富长尾实体也是一个潜在的方向[67]。
大规模实体对齐。 运行时间比较表明,在更大的数据集上训练现有方法需要花费更多的时间。 测试阶段也需要很多时间。 例如,通过并行使用 10 个进程,计算 100K 数据集上实体嵌入的成对余弦相似度大约需要 8 分钟。 随着实体数量的增加,成本将呈多项式增长。由于大且未分区的候选空间,基于嵌入(以及传统)的方法很难在非常大的 KG 上运行。 阻塞技术,例如局部敏感哈希 [21] 和哈希表示学习 [45],可能有助于缩小候选空间。
非欧几里得空间中的实体对齐。 我们在图 11 中的实验结果表明,非欧几里得嵌入模型 RotatE [71] 优于其他欧几里得模型。 我们还注意到,最近的非欧几里得嵌入已经证明了它们在表示图结构数据方面的有效性 [53]。 因此,面向对齐的非欧几里得 KG 嵌入模型值得开拓。
8. 结论
在本文中,我们综述了 KG 之间基于嵌入的实体对齐这一领域,并对代表性方法进行了基准研究。 我们创建了一组更适合真实世界知识图谱的专用数据集,并开发了一个包含各种实体对齐方法和知识图谱嵌入模型的开源库。 我们的实验分析了现状并指出了未来的方向。