目录
Introduction
本文作者来自清华大学唐杰老师团队。
本文针对的是大规模的学术知识图谱(Aminer,Microsoft Academic Graph (MAG))实体链接,根据知识图谱中主要存在的三种实体:venues(论文发表的期刊或者会议), papers, and authors提出了三个不同的链接模型。具体来说,本文的贡献如下:
- 提出研究两个大规模异构实体图中的实体链接问题,其中每种类型的实体具有不同的属性,因此它们的链接面临不同的挑战。我们开发了一个有效高效的框架LinKG,它利用了最先进的深度神经网络来链接异构实体。
- 在MAG图和AMiner图之间进行大规模的链接实验。结果表明,我们的框架可以达到非常高的精度:链接地点实体的精度为0.9926,论文的精度为0.991,作者的精度为0.9741。我们还进行了大量的实验来证明我们对框架中每个模块的设计选择。
- 通过链接结果,我们发布了开放学术图谱(Open Academic Graph, OAG)。OAG由7亿实体和20亿关系组成,是迄今为止最大的公开学术数据。该数据集可用于各种研究主题,如网络科学和图表挖掘(协作和引用)、文本挖掘和自然语言处理(标题和摘要)、科学、计算社会科学等。
PROBLEM DEFINITION
Heterogeneous Entity Graph (HEG)也叫做heterogeneous information network (HIN),数学上定义为