论文解读:Connecting Embeddings for Knowledge Graph Entity Typing
知识图谱实体类型推理(KG Entity Typing)致力于预测知识图谱中可能缺失的实体类型实例,其作为知识图谱自动补全的一项子任务,非常重要但仍然缺乏更深入的研究。本文的方法基于联合学习的思路,从已知实体类型标注集中局部类型标注知识(Local typing knowledge)和知识图谱中全局三元组知识(Global triple knowledge)两类数据中挖掘知识,提出了两种有效的基于知识驱动的实体类型推理机制,建立了两个新的嵌入式模型(Embedding Models)并加以实现。最终,建立联合模型并实现实体类型推理。通过在真实知识图谱Freebase和YAGO上的两类实验(即实体类型预测和实体类型分类),验证了论文所提实体类型推理机制和模型的有效性。
一.简要信息
序号 | 属性 | 值 |
1 | 模型名称 |
ConnectE(E2T+TRT)
|
2 | 所属领域 | 知识图谱 |
3 | 研究内容 | 实体类型推理 |
4 | 核心内容 | Knowledge Inference |
5 | GitHub源码 |
https://github.com/Adam1679/ConnectE
|
6 | 论文PDF | https://www.aclweb.org/anthology/2020.acl-main.572/ |
二.全文概要
首先,关系实体补全,和实体关系的补全的研究已经很多了,比如实体链接。但是实体类型补全的研究却很少,而实体类型不完整会导致知识图谱驱动的任务中涉及的算法无效甚至不可用,且实体类型补全同样也是知识图谱补全不可缺少的一部分,且具有相同实体类型地实体在聚类时会更好地聚集在一起的优良品质。文章里也介绍了两种不同的机制来补全实体类型,而且单个实体可以有多个实体类型。如下图所示:
机制1为下图的左边部分,很明显存在两个相似实体Barack Obama和Donald Trump。而Barack Obama缺少的实体类型,可能就能由Donald Trump的实体类型影响。
机制2为下图的右边部分,观察实体Barack Obama和实体Honolulu,两个实体的实体联系为born in。构成三元组(Barack Obama, born in, Honolulu),更通用的为(/people/person, born in, /location/location)。因此,可以得到如下公式Honolulu − Barack Obama = /location/location-/people/person (= born in),当有一个缺失实体类型的实例(Barack Obama, type=? ),我们就可以用这个公式去求解。
显然,机制一和机制二需要两个不同的模型去实现。
机制一的理论基础:因为实体一和实体二是两个不同的对象。故需要两个构建两个不同的嵌入空间e,t.并通过使用映射矩阵M将实体从实体空间投影到实体类型空间,表示为M.et,称作E2T。
机制二的理论基础:根据之前描述机制二,可知其合理性可以得到,称为TRT。
如下图所示:
虽然关于实体类型之前有一定的研究,但是明显都有一定的缺陷,比如LM,PEM忽视了全局三元组知识。而RESCAL-ET,HOLE-ET,TransE-ET和ETE错误的认为实体类型和实体在一个空间中,这显然并不合理,等等还有一些其他模型,如下图所示:
接下来,详细介绍E2T和TRT。
一.E2T:将实体映射到实体类型
该框架的第一个模型(E2T)涉及从实体类型中学习具有局部类型知识的函数,该函数旨在对实体e和类型t的相似性进行评分。该模型背后的主要思想如下:由于已经学习了的实体在嵌入在具有相同或相似类型时会很好地聚类。因此,实体类型嵌入表示了一个聚类的投影通用概念表示为(e)=M.e()。该模型包括首先将投影实体嵌入到实体类型空间中,然后计算该投影与实体类型嵌入之间的相似性度量。当得分函数给定e,t时为。M为投影矩阵。当经过投影矩阵投影的实体与实体类型越接近,得分就越低。表示预测的越准确,类似于一个优化问题。
二.TRT:在KG中编码三元组
类似于E2T,TRT利用全局三元组知识san'y构建得分函数。我们认为三元组(首部实体,关系,尾部实体)成立的必要前提是其对应的实体类型三元组应首先符合该关系。因此,我们可以通过将head实体和tail实体都替换为其对应的类型来构建新的实体类型三元组。可以得到,定义得分函数为 。如果两个实体类型接近,那么得分函数的值就越小。
三.实体类型补全的实现
对于每一个出现在测试集的实体e,E2T下的实体类型t的预测表现为公式: ,就是符合条件的实体类型。此外,一个更加综合的得分函数本文称作ConnectE,公式为:
并且可以得出结论,当训练数据集减少时,预测准确率和之前完整数据集相比,差不多。且相应的训练时间减少了。
然后,文章又做了实体类型分类各个方法的比较,实质仍是一个二分类问题,若,其中为阈值。则认为分类正确,否则分类错误,绘出PR(召回率-准确率)图,如下图所示:
分类准确率看Table4
具体案例如下图所示,例如。
三.总结
ConnectE(E2T+TRT)模型在开放数据集Freebase和YAGO上的预测实体类型和分类实体类型的效果都优于之前提出的模型LM,PEM等等。并且有效利用了局部标注知识和全局三元组知识,并且未来可以考虑用此模型做实体类型噪声检测。