笔记整理:付可意,天津大学硕士
链接:https://doi.org/10.1016/j.eswa.2022.119013
动机
知识图谱(Knowledge graph, KGs)以事实三元组的形式收集和存储大量的常识或领域知识,事实三元组以(头实体、关系实体、尾实体)的形式表示。近年来,许多现有的知识图谱,如Freebase, YAGO, NELL,已被视为关键资源,并被引入许多人工智能应用,如问答、推荐和语义搜索。然而,它们通常是不完整的,并且仍然存在实体之间关系缺失的问题。然而,绝大多数方法通常将KG补全任务定义为链接预测任务。具体来说,给定事实三元组中的两个元素,任务是推断缺失的元素,例如(h, r, ?), (h, ?, t), (?, r, t),其中问号代表缺失的实体/关系。虽然这样的任务已经取得了优异的成绩,但是在很多情况下仍然是不合理的,比如对(Trump, capital of, ?)的预测。链接预测任务隐含地假设给定的两个元素是强相关的。现有的大多数作品都是通过在KG中从真三元组中取出一个元素来实现的,从而保证了假设。然而,在现实世界中,我们通常不会得到两个相关的元素,因此经常会出现(Trump,capital of,?)这样无意义的组合。对于这种本质上没有意义的组合,无论最终的推理结果是什么,形成的三元组都没有意义。因此,我们需要更合理的方法,尽可能的去除这些无效的组合,以保证完成的有效性。
亮点
PANC的亮点主要包括:
(1)利用实体和模糊聚类算法之间的相关性来获得每个原型每个实体的成员关系,以便将实体划分为相应的原型空间,并使用原型信息构建我们的过滤器,以生成更合理的候选(r,t)对。
(2)引入局部图邻居信息来进一步约束给定的头部实体,并通过邻居聚合过滤和重新设计Grader,以增强实体嵌入。
概念及模型
Prototype segmentator
我们选择原型作为指导,原型中包含的语义信息比类型更有边界。考虑到KG中的每个实体可以有一个或多个原型,我们设计了基于模糊C-均值聚类算法的原型分割器。为了实现这个模块,我们首先将原型的数量计算为N,并将每个原型视