论文笔记整理:王中昊,天津大学硕士,方向:自然语言处理。
来源:AAAI2019
论文链接: https://doi.org/10.1609/aaai.v33i01.3301297
概述
知识图谱之间的实体对齐的任务目标是去找到那些在两个不同的知识图谱上表示现实世界相同的实体。最近,人们提出了基于嵌入的模型应用于实体对齐任务。这种模型建立在知识图谱嵌入模型的基础上,该模型学习实体嵌入以捕获同一知识图谱中实体之间的语义相似性。而作者提议出一种能够学习嵌入进而捕捉不同知识图谱中实体间相似性的模型。这种模型有助于将不同知识图谱中的实体对齐,从而实现多个知识图谱的集成。模型利用知识图谱中存在的大量属性三元组,来生成attribute character embeddings。attribute character embeddings基于它们的属性,将两个知识图谱上的实体嵌入通过计算实体之间的相似度进而转移到同一空间。与此同时,模型也使用传递性规则来进一步丰富实体的属性数目,以增强attribute character embeddings。
模型和方法
模型综述
该模型框架使用基于嵌入的模型,如上图所示。该框架由谓词对齐、嵌入学习和实体对齐三部分模块组成。由于基于嵌入的实体对齐要求两个知识图谱的嵌入(关系和实体嵌入)落在同一向量空间中。为了使关系嵌入有一个统一的向量空间,我们基于谓词相似度(即谓词对齐)合并了两个知识图谱。
谓词对齐模块(后文将详细介绍)将查找部分相似的谓词,例如dbp:bornIn与yago:wasBornIn,并使用统一的命名方案(例如:bornIn)来重命名它们。基于这个统一的命名方案,我们将G1和G2(见上图)合并成为G1_2中。然后,将合并后的图G1_2分为一组关系三元组Tr和一组属性三元组Ta,用于后续的嵌入学习。
嵌入学习模块(后文将详细介绍)利用结构嵌入和属性嵌入共同学习两个知识图谱的实体嵌入。使用上文中生成的关系三元组Tr来进行结构嵌入的学习,而使用属性三元组Ta来进行属性嵌入的学习。最初,来自G1和G2的实体的结构嵌入,由于两个知识图谱中的实体使用不同的命名方案表示,因此落入不同的向量空间。相反的,从属性三元组Ta中学习到的属性嵌入可以落在同一向量空间中。这是通过从属性字符串中学习字符嵌入来实现的,即使属性来自不同的知识图谱(我们称之为attribute character embeddings),也可以是相似的。然后,利用得到