论文作者:申雨鑫,天津大学硕士
发表会议:CIKM 2021
链接:https://dl.acm.org/doi/pdf/10.1145/3459637.3482421
动机
知识图谱表示学习旨在将实体和关系编码到一个连续的低维向量空间中。大多数现有方法主要在欧氏空间中学习结构三元组的表示,不能很好地利用知识图谱中的丰富语义信息。论文提出了一种双曲空间中的数据类型感知的知识图谱表示学习模型DT-GCN,首先,将属性值的数据类型细化为五类,包括整数、浮点、布尔、时间和文本型;然后,对于每种类型,设计不同的编码器用于学习其嵌入;最后,在欧氏空间、球形空间和双曲空间的基础上定义了一个具有连续曲率的统一空间,能够结合三种不同空间的优点。在合成数据集和真实数据集上的大量实验表明,模型的性能始终优于基线模型,证明了融入数据类型信息以及利用双曲空间和统一空间的优势。
亮点
DT-GCN的亮点主要包括:
1.首次在知识图谱表示学习中引入了属性值的数据类型这一语义信息;2.首次探索了具有连续曲率的统一空间中的融入数据类型信息的知识图谱表示学习方法;
概念及模型
DT-GCN由两个主要模块组成:通用编码器和专用编码器。前者对节点嵌入进行初始化、构建实体的关系感知表示并得到整数型属性的嵌入结果;后者对浮点型、布尔型、时间型和文本型属性进行编码,并得到相应的嵌入结果。此外,基于欧式、球形和双曲空间构建了一个具有连续曲率的统一空间,并探索了在此空间上的知识图谱表示学习。
DT-GCN的技术细节包括以下四部分:
•Data type refinement:将XML schema中定义的数据类型进行精化。•General encoders:通用编码器部分,包括嵌入层和关系感知层。•Dedicated encoders:专用编码器部分,包括注意力层、GRU层、BiGRU层和FNN层。•The unified space:基于欧