An Industry Evaluation of Embedding-based Entity Alignment

基于嵌入的实体对齐的行业评估

An Industry Evaluation of Embedding-based Entity Alignment

Ziheng Zhang1∗, Jiaoyan Chen2∗, Xi Chen1∗†, Hualuo Liu1, Yuejia Xiang1, Bo Liu1, Yefeng Zheng1

1Tencent Jarvis Lab, Shenzhen, China
2 Department of Computer Science, University of Oxford, UK

摘要 近年来,基于嵌入的实体对齐得到了广泛的研究,但大多数提出的方法仍然依赖于理想的监督学习设置,使用大量无偏种子映射用于训练和验证,这极大地限制了它们的使用。在这项研究中,我们在行业背景下评估了这些最先进的方法,探索了不同规模和偏差的种子映射的影响。除了来自 DBpedia 和 Wikidata 的流行基准之外,我们还贡献和评估了一个新的行业基准,该基准是从两个异构知识图谱 (KG) 中抽取的,用于医疗应用的部署。实验结果有助于分析这些对齐方法的优缺点,并进一步讨论适合其行业部署的策略。

1介绍

知识图谱 (KG),例如 DBpedia (Auer et al., 2007)、Wikidata (Vrande c ˘ \breve{\text c} c˘i c ˊ \acute {\text c} cˊ and Kr o ¨ \ddot {\text o} o¨tzsch, 2014) 和 YAGO (Suchanek et al., 2007) 在各种应用中发挥着越来越重要的作用,例如问答和搜索引擎。KG 的构建通常包括几个组件,例如命名实体识别 (NER) (Li et al., 2018)、关系抽取 (RE) (Zhang et al., 2019a) 和知识校正 (Chen et al., 2020))。然而单个 KG 的内容往往不完整,导致知识覆盖面有限,尤其是在支持特定领域的应用方面(F a ¨ \ddot {\text a} a¨rber 等人,2018 年;Demartini,2019 年)。一种广泛采用的解决方案是在对齐系统的帮助下合并多个 KG(例如,具有特定领域细粒度知识的企业 KG 和具有广泛覆盖范围的通用 KG),对齐系统可以发现跨 KG 的实体、关系和类映射(Otero-Cerdeira 等人,2015;Yan 等人,2016)。

由于 Wikidata 等具有大数据(即大量事实)的 KG 的普及,基于嵌入的 实 体 对 齐 实体对齐 最近引起了更多关注。传统的对齐系统,例如 PARIS (Suchanek et al., 2011) 和 LogMap (Jim e ˊ \acute {\text e} eˊnez-Ruiz and Grau, 2011),它们通常依赖于词法匹配和语义推理(例如,用于检查是否违反了关系的定义域和值域定义) , 被认为在利用上下文语义方面很弱,尤其是如此大的 KG 的图结构。为了解决这个问题,已经提出了一些新的基于嵌入的方法,并使用了不同的 KG 嵌入方法,例如 TransE (Bordes et al., 2013) 和图神经网络 (GNNs) (Scarselli et al., 2008),以及来自主动学习(Berrendorf et al., 2020)、多视图学习(Zhang et al., 2019b)等的一些算法。

我们发现所有这些基于嵌入的实体对齐方法都依赖于 种 子 映 射 种子映射 在训练中进行监督或半监督。它们通常利用从 DBpedia、Wikidata 和 YAGO 中抽取的基准进行评估,所有这些都是从同一来源构建的,即 Wikipedia。这些方法通常使用所有真实映射的30% (甚至更高)来构建模型,并且训练和验证集是随机抽取的,测试集具有相同的分布。

然而,在行业应用中,这些种子映射不仅需要专业知识,还需要大量人工标注,尤其是当两个大型 KG 来自完全不同的来源时。尽管可以标注少量种子映射,但在实体名称、属性、图结构等方面,它们与用于预测的剩余映射相比通常存在偏差。图 1显示了来自腾讯科技的两个采样得到的医学 KG 的所有映射的分布(更多细节参见第 3.1节),有两个维度——映射实体名称之间的相似度和映射实体的平均属性数。当我们直接邀请专家或利用下游应用对映射进行标注时,标注的映射可以作为训练时的种子映射,它们通常位于名称相似度高、属性数大的右下方区域(如图 1中的红色块所示)。因此,我们认为种子映射应该具有以下特点,以使这些监督方法的评估更加实用。首先,种子映射应该占所有映射的一小部分,例如3%,远小于之前的实验设置。其次,种子映射应该在实体名称相似度、平均属性数或两方面与其余映射有偏差。在当前评估中,这种偏差被忽略了。

img

图 1:两个采样的医学 KG 的映射分布。横轴表示属性的平均数量,纵轴表示实体名称之间的编辑距离。

在这项工作中,我们在行业场景系统地评估了四种最先进的基于嵌入的 KG 对齐方法。该实验使用来自 DBpedia 和 Wikidata 的一个开放基准,来自两个具有异质内容的企业医学 KG 的一个行业基准,以及一系列不同规模的、带有名称偏差和属性偏差的种子映射。性能分析考虑全部测试映射以及它们的不同分割以进行细粒度观察。这些方法也与传统系统 PARIS 进行了比较。据我们所知,这是第一个从行业角度评估和分析基于嵌入的实体对齐方法的工作。我们发现这些方法在很大程度上依赖于理想的监督学习环境,并且在行业背景下测试时性能会急剧下降。基于这些结果,我们可以进一步讨论将它们部署到实际应用中的可能性以及合适的采样策略。新的基准和种子映射还有益于研究界的未来研究,可在以下网址公开获得https://github.com/ZihengZZH/industry-eval-EA。

2 预备知识及相关工作

2.1基于嵌入的实体对齐

大多数现有的基于嵌入的实体对齐方法都符合以下三步范式:(i)通过基于平移的方法,如 TransE(Bordes 等人,2013),或基于图神经网络(GNNs) (Scarselli et al., 2008)的方法,递归地聚合相邻实体和关系的嵌入;(ii)通过学习变换矩阵、共享对齐实体的嵌入或交换相关三元组中对齐的实体,将一个 KG 空间中的实体嵌入映射到另一个 KG 空间;(iii)通过使用余弦相似度等指标计算嵌入空间中的距离,在另一个 KG 中搜索对应实体。值得注意的是,种子映射的作用主要在步骤(ii),对齐两个 KG 的嵌入。

具体来说,我们评估了四种方法,即BootEA (Sun et al., 2018)、MultiKE (Zhang et al., 2019b)、RDGCN (Wu et al., 2019) 和RSN4EA (Guo et al., 2018)。一方面,根据他们自己的评估和基准研究(Sun et al., 2020),他们在理想的监督学习环境中取得了最好的表现;另一方面,它们代表了文献中广泛使用的不同技术。四种方法介绍如下。

BootEA是一种半监督方法,它采用基于平移的模型进行嵌入,并通过引导(bootstrapping)迭代训练分类器。在每次迭代中,分类器标注新的可能映射,那些不会引起冲突的映射被添加到下一次迭代中用于训练。

MultiKE利用多视图学习将不同的语义信息编码到预测模型中。具体来说,分别为实体名称、实体属性和图结构开发了三个视图。

RDGCN应用 GCN 变体 Dual-Primal GCN (Monti et al., 2018) 以利用 KG 嵌入中的关系信息。与那些基于平移的嵌入方法相比,它可以更好地利用图结构,特别是在处理三角结构时。

RSN4EA首先生成两个 KG 的有偏随机游走(长路径)作为序列,然后通过名为 Recurrent Skipping Network 的序列模型学习嵌入。这里的种子映射用于生成跨 KG 游走,从而探索跨 KG 实体之间的相关性。

2.2 种子映射

据我们所知,目前基于嵌入的实体对齐方法主要依赖于种子映射,其作用已在2.1节中介绍,用 于监督或半监督学习。特别地,我们也可以考虑一些启发式规则,例如字符串和属性匹配来生成种子映射,如 IMUSE 方法(He et al., 2019)所做的,但种子映射的影响是相似的,研究这种影响也有利于远程监督方法。

此外,尽管 BootEA (Sun et al., 2018) 和 SEA (Pei et al., 2019) 等一些半监督方法对种子映射的依赖程度较低,但在用一小部分种子映射进行训练时,它们的性能可能因数据而异,并受种子映射偏差的影响。

在这些方法的自我评估和最近的基准研究(Sun et al., 2020)中,全部真实映射的20%和10%分别用于训练和验证,更重要的是,它们是随机选择的,从而保持与测试映射相同的分布。这违反了行业中的实际场景,其中标注种子映射的成本很高,并且标注的通常是有偏差的,如第 1节所述。实际上,种子映射的研究相对较少,并且只考虑了种子映射的比例。在Sun等人(2018)和Wu等人(2019)评估所提出的方法时,用于训练的种子映射比例从10%到40%。然而,在对齐两个大 KG 时,最小比例仍然会导致非常大量(例如,1.5K)的种子映射。

2.3 基准

当前评估基于嵌入的方法的基准通常来自 DBpedia、Wikidata 和 YAGO。它们可以分为两类。第一类包括那些用于跨语言实体对齐的,例如 DBP15K (Sun et al., 2017) 和 WK3l60k (Chen et al., 2018),它们都支持英语的 DBpedia 实体和其他语言的 DBpedia 实体之间的对齐,比如中文或者法语。这些基准通常只支持 KG 内对齐。第二类包括那些用于跨KG实体对齐的,例如DWY15K(Guo et al., 2018)和DWY100K(Sun et al., 2018),它们都是DBpedia和Wikidata / YAGO之间的对齐。

正如 Sun 等人(2020)所讨论的那样,与原始 KG 中的正常实体相比,上述基准中的实体存在显著偏差;例如,WK3l60k 中的那些 DBpedia 实体的平均连接度为22.77,而全部 DBpedia 实体的是6.93。因此,这些基准并不能代表 DBpedia、Wikidata 和 YAGO。为了解决这个问题,Sun=】等人(2020)提出了一种新的基于度的迭代采样算法,以抽取 DBpedia 内的跨语言实体对齐和 DBpedia 与 Wikidata/YAGO 之间的跨 KG 实体对齐的新基准。尽管新的基准在图结构方面更具代表性,但用rdfs:label定义的实体标签被删除,其中包括重要的名称信息,这使得它们对现实世界的对齐上下文的代表性降低。更重要的是,由于 DBpedia、Wikidata 和 YAGO 是利用同一来源 Wikipedia 构建的,因此对齐的实体通常具有相似的名称、属性或图结构。因此,这些基准不适用于现实世界的对齐方式,即旨在使不同来源的 KG 相互补充。为了进行行业评估,我们利用两个行业 KG 构建了一个新基准(参见第 3.1节)。

值得注意的是,本体对齐评估倡议(Ontology Alignment Evaluation Initiatives)1自 2018 年以来一直在组织 KG 赛道(Hertling 和 Paulheim,2020)。使用的基准是从 Fandom 的几个不同 Wiki 中抽取的 KG;2例如,starwars-swg 是一个基准,包含来自 Star Wars Wiki 和 Star Wars Galaxies Wiki 的两个 KG 之间的映射。尽管采用了多个基准,但规模有限;例如, 2019 年使用的5个中有4个的实体映射少于 2K。由于一个基准的两个 KG 是关于一个具体主题(如电影和星球大战游戏)的两个中心(hub)事物,实体名称几乎没有歧义,成为对齐的优质指标。因此,它们不适合用于评估基于嵌入的实体对齐方法的行业基准。

3 数据生成

3.1行业基准

为了在上述行业背景下评估基于嵌入的实体对齐方法,我们首先从两个真实世界的医学 KG 中抽取基准进行对齐。一个KG是根据多个权威医疗资源创建的,涵盖疾病、症状、药物等细粒度知识,用于支持我司问答、医疗助手等应用。然而,它的一些实体信息不完整,缺少许多重要属性,这限制了它的可用性。我们根据下游应用的反馈抽取了大约 1万个这样的实体。然后将它们与另一个 KG 对齐以提高信息完整性。该KG是从最大的中文百科全书——百度百科3的信息框中抽取的,通过 NLP 技术(例如 NER 和 RE)以及一些手工的工程工作。我们用众包的方式来标注映射,使用基于标签和同义词的启发式规则,以及用于支持信息检查的友好界面来提供帮助。最后,我们获得了9,162个一对一的实体映射,在此基础上,从原始 KG 中抽取了子 KG。具体来说,子 KG 包括由与这些映射相关联的实体组成的三元组。这两个子KG 被命名为 MED 和 BBK,新的基准命名为 MED-BBK-9K。

MED-BBK-9K 和另一个基准 D-W-15K 的更多细节如表 1所示,D-W-15K 是在V2的设置下通过基于度的迭代采样方法抽取的(Sun et al., 2020),其中 # 表示数量,度(degree) 是三元组数和实体数之间的比率。关系三元组和属性三元组的统计数据分别在表 1中给出。请注意,关系相当于连接两个实体的对象属性,而属性相当于将实体与某种数据类型的值相关联的数据属性。MED-BBK-9K 的两个实体映射示例如图 2 所示,其中绿色椭圆表示跨 KG 的对齐实体,白色椭圆和实线箭头表示其关系三元组4,红色矩形和虚线箭头表示其属性三元组,值包括正常值、句子描述和噪声值。通过统计和实例可以得出,MED-BBK-9K中的KG与D-W-15K中的KG有很大不同,具有更高的关系度、更少的属性、更高的异质性等。

表 1:MED-BBK-9K 和 D-W-15K 的统计数据。

img

图 2:来自 MED-BBK-9K 的两个映射示例,带有英文翻译。

img

3.2 有偏差的种子映射

除了行业基准之外,我们还开发了一种新方法来为行业背景抽取有偏的种子映射。我们首先引入两个变量, s n a m e s_{name} sname n a t t r n_{attr} nattr,其中 s n a m e s_{name} sname 是归一化的 Levenshtein 距离——在[0,1]区间的编辑距离度量 (Navarro, 2001),用于每个映射的两个实体的名称字符串的比较, n a t t r n_{attr} nattr 是每个映射的实体的平均属性数。对于 D-W-15K 中的 Wikidata 实体,我们使用P373和P1476的属性值作为实体名称,而对于 DBpedia 实体,我们使用 URI 中的实体名称。请注意,当一个映射中的一个或两个实体有多个名称时,我们采用相似度最高的两个名称,即 s n a m e s_{name} sname最低的名称。同时,在计算 s n a m e s_{name} sname之前对所有名称进行预处理:破折号、下划线和反斜杠用空格替换,标点符号删除,字母转换为小写。

计算出 s n a m e s_{name} sname n a t t r n_{attr} nattr后,我们根据名称相似度或属性数量将所有映射分成三个不同的部分。对于名称相似度,映射分为“相同”( s n a m e s_{name} sname = 1.0)、“接近”( s n a m e s_{name} sname < 1.0)和“不同”( s n a m e s_{name} sname为NA,即没有有效的实体名称),适用于 MED-BBK-9K 和 D-W-15K。从属性数量上,映射分为“大”( n a t t r ≥ k 1 n_{attr}\ge k_1 nattrk1)、“中”( k 2 ≤ n a t t r < k 1 k_2\le n_{attr}< k_1 k2nattr<k1 ) 和“小” ( n a t t r < k 2 n_{attr}< k_2 nattr<k2),其中 ( k 1 , k 2 ) (k_1, k_2) (k1,k2)对于 MED-BBK-9K设置为(5 , 2) ,对于 D-W-15K设置为(10 , 4) .

我们进一步开发了一种迭代算法来抽取具有名称偏差和属性偏差的种子映射。它的步骤如下所示,有两个输入,即所有映射的集合 M a l l \mathcal M_{all} Mall和种子映射的规模 N s e e d N_{seed} Nseed,以及一个输出,即有偏的种子映射集合 M s e e d \mathcal M_{seed} Mseed

(1)初始化有偏种子映射集合 M s e e d \mathcal M_{seed} Mseed

(2)为 M a l l \mathcal M_{all} Mall中每个映射分配一个分数: z = z n a m e + z a t t r z = z_{name} + z_{attr} z=zname+zattr ,其中如果映射分别属于“相同”、“接近”和“不同”,则 z n a m e z_{name} zname分别设置为4、3和1,如果映射分别属于“大”、“中”和“小”,则 z a t t r z_{attr} zattr设置为4、3和1。请注意,所有映射都分配了8、7、6、5、4或2中的一个分数。

(3)将 M a l l \mathcal M_{all} Mall中得分最高的映射移动到 M s e e d \mathcal M_{seed} Mseed。如果 M a l l \mathcal M_{all} Mall中多个映射都具有最高分数,则随机选择一个。

(4)检查 M s e e d \mathcal M_{seed} Mseed的规模是否等于或大于 N s e e d N_{seed} Nseed。如果是,返回种子;否则转步骤(3)。

利用上述步骤,我们还可以通过设置 z = z n a m e z = z_{name} z=zname得到只有名字偏差的种子映射,以及通过设置 z = z a t t r z = z_{attr} z=zattr得到只有属性偏差的种子映射。注意种子映射 M s e e d \mathcal M_{seed} Mseed包括训练映射和验证映射。在我们的实验中,前者占据了种子映射的三分之二,而后者占据了三分之一。

4 评估

4.1 实验设置

我们首先进行总体评估(参见第 4.2 节)。具体来说,BootEA、MultiKE、RDGCN 和 RSN4EA 方法在 (i) 行业背景下进行测试,其中种子映射既有名称偏差又有属性偏差,训练(验证)映射的比例为2%( 1%)(ii)在理想环境进行测试,其中种子映射是随机选择的,没有偏差,训练(验证)映射的比例为20%(10%)。然后,我们进行消融研究,独立分析种子映射的三个影响,包括规模、名称偏差和属性偏差。

在整体评估和消融研究中,我们使用全部测试映射计算指标 Hits@ 1、Hits@ 5和平均倒数排名(MRR)。对于每个测试映射,候选实体(即目标KG中的所有实体)根据其预测分数进行排名;Hits@ 1(Hits@ 5) 是测试映射的真实实体排名前1(前5)的比率;MRR 是真实实体的平均倒数排名。同时,为了进一步分析不同类型测试映射上种子映射的影响,我们将测试映射分为两个三折分割——从名称偏差方面分为“相同”、“接近”和“不同”,以及从属性偏差方面分为”小”、“中” 和“大”。

我们采用了 OpenEA 中 BootEA、MultiKE、RDGCN 和 RSN4EA 的实现,根据验证集调整了它们的超参数。具体来说,批量规模设置为5000,提前停止标准设置为验证集时上的 Hits@ 1开始下降(每10 个epoch 检查一次),最大 epoch 数设置为2000。由于 MultiKE 和 RDGCN 使用文字,词嵌入是使用在 Wikipedia 2017、UMBC 网络数据库语料库和 statmt.org 新闻数据集5上预训练的 fastText 模型生成的。为了在 MED-BBK-9K 上运行它们,中文词嵌入是通过腾讯科技6在大型医学语料库上预训练的医学专用 BERT 模型获得的。

最后,我们将这些基于嵌入的方法与最先进的传统系统 PARIS (v0.3) 7进行比较,该系统基于词法匹配和关系映射、类映射和实体映射并考虑几种映射的相关性(逻辑一致性)的迭代计算 (Suchanek et al., 2011)。我们采用 PARIS 的默认超参数。请注意,PARIS 不需要用于监督的种子映射。由于 PARIS 不会对所有候选实体进行排名,因此我们使用 Precision、Recall 和 F1-score 作为评估指标。对于基于嵌入的方法,我们的一对一映射评估中的Hits@ 1等价于 Precision、Recall 和 F1-score。

4.2 总体结果

表 2 展示了这些基于嵌入的方法在理想环境和行业背景下在 D-W-15K 和 MED-BBK-9K 上的结果。一方面,我们发现 当 测 试 环 境 从 理 想 环 境 转 移 到 行 业 背 景 时 , 所 有 四 种 方 法 的 性 能 都 会 显 著 下 降 当测试环境从理想环境转移到行业背景时,所有四种方法的性能都会显著下降 ,而后者因其种子映射较少且有偏差而更具挑战性。例如,全部测试映射上所有四种方法的平均 MRR,在 D-W-15K 上从0.661(应该是0.706)下降到0.262,MED-BBK-9K 上从0.327下降到0.118。

表 2:理想环境和行业背景下的总体结果。

img

我们还发现,当转移到行业背景时,性能下降在不同测试映射分割中有所不同。考虑基于名称的分割,性能下降在“不同”分割上最显著,在“相同”分割上最不显著。以 MED-BBK-9K 上的 MultiKE为例,它的Hits@分别在“相同”、“接近”和“不同”的分割上减少了11.4%, 13.9%和43.1%。因此,包括 MultiKE 和 RDGCN 在内的方法在“相同”分割上的表现优于在“接近”和“不同”分割上的表现。它符合我们的期望,因为行业背景下的种子映射,其采样偏向于名称相似度较高的样本,接近“相同”分割,远离“不同”分割。然而,当我们考虑基于属性的种子映射分割时,这样的常规被打破了。对于在“大”测试分割上测试的 MultiKE,其在行业背景下的性能下降在 D-W-15K 上最不显著,这与预期一致,但在 MED-BBK-9K 上最显著。因此,MultiKE 在“大”测试分割上的表现比在“小”测试分割上更差(Hits@ 1低28.9%),尽管前者更接近种子映射。一种可能的解释是MED-BBK-9K 中超过5 个属性的映射(“大”测试分割中的映射)往往包含重复属性,并且某些属性值是句子,而这些方法无法充分利用。

另一方面,我们发现 在 D 在D D- W W W- 15 K 和 M E D 15K和MED 15KMED- B B K BBK BBK- 9 K 的 行 业 背 景 下 , 9K 的行业背景下, 9K M u l t i K E 和 R D G C N 比 MultiKE和RDGCN比 MultiKERDGCN B o o t E A 和 R S N 4 E A 更 强 大 BootEA 和 RSN4EA 更强大 BootEARSN4EA。尽管 MultiKE 和 RDGCN 不如理想环境下好,但它们的性能还算不错。具体来说,当用全部测试映射进行度量时,在 D-W-15K 上,RDGCN 的表现优于 MultiKE,MRR高27.9%,Hits@ 1高32.9% ,但在 MED-BBK-9K 上的表现比 MultiKE 差,MRR低21.3%,Hits@ 1低11.7%。BootEA 和 RSN4EA 在行业背景下的表现较差;他们在全部测试映射或不同测试分割上的 Hits@ 1、 Hits@ 5和 MRR 在两个基准上都低0.1。这意味着它们对种子映射的规模或/和偏差非常敏感(消融研究参见第 4.3 节)。

4.3 消融研究

4.3.1 规模影响

根据表 3 中“With No Bias”设置的结果,我们可以首先发现 M u l t i K E 和 R D G C N MultiKE和RDGCN MultiKERDGCN 对 于 小 的 训 练 映 射 规 模 相 对 健 壮 对于小的训练映射规模相对健壮 。考虑他们在所有测试映射上测量的 Hits@1,当训练映射规模从20%显著减少到2%时,它分别从0.484略微下降到0.394,从0.629略微下降到0.513。在“相同”测试分割和“大”测试分割上,两者都接近训练映射,MultiKE 和 RDGCN 在2%的映射上训练时,保持相对较好的性能。然而,在与训练映射相比偏差更大的另外两个分割上,MultiKE 和 RDGCN 的性能下降得更显著。

此外,我们发现 B o o t E A 和 R S N 4 E A 对 训 练 映 射 规 模 非 常 敏 感 BootEA 和 RSN4EA 对训练映射规模非常敏感 BootEARSN4EA。例如,当训练比例从20%下降到4%再到2%,在全部测试映射上测量的 BootEA (RSN4EA) 的 MRR 从0.864下降到0.153再到0.051(从0.717到0.132再到0.044)。BootEA 的性能超出了我们的预期,因为它是一种为有限数量的训练样本设计的半监督算法。除了在全部测试映射上的性能下降之外,它们在不同测试分割上的性能下降也相当显著,包括“相同”和“大”。

4.3.2 名称偏差影响

可以通过比较表 3 中“With Name Bias”(带名称偏差)和“With No Bias”(无偏差)的设置来评估种子映射中名称偏差的影响。使用20%的训练映射,MultiKE 和 RDGCN 受名称偏差的负面影响大于 BootEA 和 RSN4EA;例如,与全部测试映射测量的 MRR相比,分别下降了52.9%和41.5% ,而 BootEA 和 RSN4EA 分别仅下降了18.8 %和19.1% 。

表 3:在训练映射的不同设置(偏差和比率)下 D-W-15K 的结果。

img

具体来说,考虑到不同的测试映射分割,对MultiKE和RDGCN的负面影响主要在于“不同”分割(例如RDGCN的Hits @ 1从0.305下降到0.111),而对“相同”和“接近”的影响相对有限,有时甚至是正面的。“不同”测试分割中的映射,与训练映射的分布偏差很大,有时被称为长尾预测,上述现象表明它们在行业背景下的普遍性和难度。另一方面,名称偏差对 MultiKE 和 RDGCN 的负面影响仍然远小于小规模对 BootEA 和 RSN4EA 的负面影响。因此,当同时受到小规模(使用2%的映射进行训练)和名称偏差的影响时,BootEA 和 RSN4EA 表现不佳。还值得注意的是,RDGCN 在所有实验设置下的“接近”分割中都大大优于其他方法;例如,使用4%和2%的训练映射,它的 Hits@ 1达到0.905和0.871,而 MultiKE 分别只有0.209和0.195。

4.3.3 属性偏差影响

通过比较表 3 中“With Attribute Bias”(带属性偏差)和“With No Bias”(无偏差)的设置,可以分析种子映射中属性偏差影响。当使用20%的映射进行训练时,其对所有四种方法的负面影响相似;例如,BootEA、MultiKE、RDGCN 和 RSN4EA 在全部测试映射上的 MRR 分别下降了28.1% , 28.2%, 30.3%和23.8%。负面影响对“小”测试分割尤其显著,因为它的平均属性数与训练映射的平均属性数非常不同。相比之下,对于所有四种方法,对“大”测试分割的影响甚至都是正面的。例如,当使用4%的映射训练时,RSN4EA 的 Hits@ 1从0.133增加到0.228。特别是,在属性偏差下,减小训练映射规模对 MultiKE 和 RDGCN 的影响有限,有时影响甚至是积极的,例如,当训练映射率从20%下降到4%时,MultiKE 和 RDGCN 在全部测试映射上的 MRR 分别增加了5.8%和10.4% 。

4.4 与传统系统的比较

利用表 2 和表 4 中的结果,本小节给出基于嵌入的方法与传统系统 PARIS (Suchanek et al., 2011) 之间的比较。请注意,在我们一一映射的评估中,表 2 的 Hits@ 1等价于 Precision、Recall、和 F1-Score 。尽管 PARIS 是一个无监督的自动系统,但它在 D-W-15K 和 MED-BBK-9K 上仍然明显优于所有四种基于嵌入的方法。在 MED-BBK-9K 中,用于对齐的两个 KG 更加异质,PARIS 的表现更为显著;例如,PARIS 的 F1分数是0.493 ,在理想环境(或行业背景)中训练时,四种基于嵌入的方法中最好的是0.307(或0.179)。我们认为的一个重要原因是这些基于嵌入的方法忽略了不同映射的整体推理和相关性,而 PARIS 通过迭代工作流程利用它们并做出整体决策。幸运的是,这种推理能力和映射间相关性也可以在基于嵌入的方法中考虑,这为未来的行业应用指明了一个重要方向。

表 4:常规系统 PARIS 在 D-W-15K 和 MED-BBK-9K 上的结果。

img

5 结论与讨论

在这项研究中,我们在理想环境和行业背景下评估了四种最先进的基于嵌入的实体对齐方法。为了构建行业背景,使用两个真实世界的 KG 构建了一个新的基准,并抽取了具有不同规模、不同名称和属性偏差的种子映射。在行业背景下进行评估时,所有四种研究方法的性能都急剧下降,比传统系统 PARIS 差。具体来说,MultiKE 和 RDGCN 对名称和属性偏差敏感,但对种子映射规模具有健壮性;BootEA 和 RSN4EA 对种子映射规模极为敏感,导致在行业背景下性能不佳。

基于这些实证研究结果,我们建议在众包中专门设计策略(借助工具辅助),以确保带标注的样本具有不同的名称和属性分布。在我们的种子映射有限的行业背景下,采用 MultiKE 或 RDGCN 被证明是跨 KG 对齐的更好选择。同时,正如评估中所提到的,将这种基于嵌入的方法与考虑了映射之间相关性的 PARIS 或 LogMap 结合起来,也是一种有希望获得更好性能的解决方案。最后,我们还计划开发一个健壮的模型,可以利用一整套属性,尤其是那些带有文本描述值的属性。


  1. http://oaei.ontologymatching.org/ ↩︎

  2. http://www.fandom.com/ ↩︎

  3. https://baike.baidu.com/ ↩︎

  4. 图中的label表示一个特定的关系。请不要与W3C 标准的rdfs:label混淆。 ↩︎

  5. 词嵌入可在https://fasttext.cc/docs/en/english-vectors.html上公开获得。 ↩︎

  6. 其他中文词嵌入模型足以重现类似的实验结果。 ↩︎

  7. http://webdam.inria.fr/paris/ ↩︎

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值