实体对齐（一）：Collective Multi-type Entity Alignment Between Knowledge Graph

最新推荐文章于 2023-01-31 10:57:22 发布

angel_峰起云涌

最新推荐文章于 2023-01-31 10:57:22 发布

阅读量2.1k

点赞数

分类专栏：论文解析文章标签：知识图谱深度学习数据挖掘

本文链接：https://blog.csdn.net/sinat_28978363/article/details/110458791

版权

本文介绍了发表于WWW2020的论文《Collective Multi-type Entity Alignment Between Knowledge Graph》，该论文提出了一种名为CG-MuAlign的多类型实体对齐框架，针对知识图谱中多类型实体的对齐问题。CG-MuAlign使用图神经网络（GNN）和注意力机制，包括节点级跨图注意力和边级关系感知自注意力，以提高实体对齐的准确性，同时能够扩展到大规模知识图谱和无标注实体中。

摘要由CSDN通过智能技术生成

最近机缘巧合的了解了一些关于知识图谱应用的前沿研究，发现在很多新的研究内容中，实体对齐这样的一个传统任务依然有很大的研究价值。借实验室组会主讲的机会，特地学习了几篇实体对齐的文章，现整理这一项关于知识图谱中的多实体类型对齐的工作，对于其他几个相关工作会后续补充。
论文的基本情况
"Collective Multi-type Entity Alignment Between Knowledge Graph"发表于WWW2020会议上，研究团队为伊利诺伊大学厄巴纳-香槟分校和亚马逊，第一及通讯作者为Qi Zhu。主要研究内容为提出一种名为CG-MuAlign的多实体对齐框架，充分考虑了知识图谱中多类型特征，并将实体和关系构成一种“合作”关系，在提升实体对齐效果的同时，算法可以扩展到大规模知识图谱和无标注实体中。

1、引言

知识图谱中的实体对齐旨在识别不同的知识图谱中指代相同现实实体的那些实体。实体对齐也通常理解为实体匹配（或实体解析），用于匹配多关系数据库中相同记录。如图1所示，实体对齐的最终目标是需要确定IMDB数据库中的 Aditya Raj 和Freebase数据库中的 Aditya Raj Kappor 在现实世界中指向的是同一个事实（或实体）。

之前的实体对齐研究基本都是在单类型实体对齐任务中开展的，也就是说，它们面向的是只有一种实体类型的知识图谱。而现实中，很多知识图谱中的实体是属于不同类型的，例如图1中的 “Sambar Salsa” 既可以是 "书（type）" 也可以是 “电影（type）”。在多类型实体的知识图谱中，实体在不同的场景中属于不同的类型。类似的，关系也是一种多类型的，如 “write” 和 “produce”等。解决多类型实体对齐的一种方式是将单类型实体的对齐方法迁移到多类型实体对齐任务上。这种方法可能适应于实体类型数较少的情况，但是当知识图谱种实体类型数过多时，这种做法的弊端也就显而易见了。

为多类型实体进行标注和训练一个百余种，甚至更多的实体对齐模型是十分复杂和昂贵的。
某个实体也可能属于多个重叠的类型（比如，人既可以是作家，也可以是演员），这就导致选择哪一种类型相关的对齐模型来处理这样的复合多类型实体也是十分困难的。
知识图谱中不同形式的稀疏性导致仅从结构特征中去表示实体，进而对齐实体是不可行的。（在论文中，作者通过使用变种GNN直接进行实体对齐发现效果极差，这就是因为同一实体在不同知识图谱中的邻域结构是不同的，所以仅通过GNN捕获的结构特征在实体表示时是不充分的。例如图1中，IMDB知识图谱中的Aditya Raj的邻居实体有4个，而Freebase知识图谱中的Aditya Raj Kapoor的邻居实体只有两个。）

以上述三个现实性问题为靶向，作者提出了一种融合图神经网络（GNN）的多类型实体对齐方法，名为CG-MuAlign （Collective Graph neural network for Multi-type entity Alignment）。算法设计的思路是对实体的多个类型进行联合对齐，主要是通过设计attention机制来将实体邻域的正向信息（positive evidence）和比较有效的负向信息（negative evidence）进行“合作（collective）”。

对于实体而言，作者设计了一种名为“cross-graph attention" 的注意力方法来捕获目标实体在两个图中的更为相似的邻域结构（关键性实体赋予更大的权重），得到目标实体更为精确的向量表示。对于关系而言，作者设计了一种基于关系的自注意力机制，名为“relation-aware self-attention”, 来防止仅根据实体的邻域相似盲目地对齐实体。因为在知识图谱中，通常会存储一些相似实体，但是表示的事实却不相同。例如一个系列的电影会由相同的导演和演员组成，但是它们上映的时间决定了其不属于相同的实体。这种基于关系的自注意力就是为了解决这样的一个问题。

CG-MuAlign算法与其他多类型实体对齐模型相比，主要有以下的几个大的方向改进，如表1所示。