基于位置的知识图谱链接预测

本文提出一种基于位置的知识图谱链接预测方法,利用实体和关系的位置特征及规则挖掘,结合向量化预测,提高了链接预测的准确性。实验表明,针对位置相关的关系,这种方法在WikiData、FB和WN数据集上的表现优于其他方法。
摘要由CSDN通过智能技术生成

基于位置的知识图谱链接预测

人工智能技术与咨询 

本文来自《中文信息学报》,作者张宁豫等

摘 要: 链接预测是知识图谱的补全和分析的基础。由于位置相关的实体和关系本身拥有丰富的位置特征,该文提出了一种基于位置的知识图谱链接预测方法。该方法首先通过分析实体和关系的语义特征对关系进行分类,然后提出了一种基于位置的实体和关系位置特征和规则的挖掘方法;其次,通过挖掘出的实体位置特征和规则,对实体和关系的向量化方法预测结果进行约束,得到最终的结果。该文通过对WikiData、FB和WN数据集的实验,证明该方法针对基于位置的关系和实体链接预测拥有较好的效果。

关键词: 位置特征;知识图谱;链接预测

0 引言

知识图谱例如FreeBase、Yago等是很多人工智能应用的重要数据来源。它包含了海量的实体和关系并以三元组的形式进行存储。然而,大多数知识库的数据都是缺失的。所以知识库补全,也就是对现有的知识库进行链接,预测新的关系和实体是一项重要的工作。

现有的知识图谱链接预测方法大多都是直接利用实体、关系本身或图的特征来进行链接预测。对于给定的知识图谱,实体和关系通常会被映射成低维的向量。通过定义一个打分函数来对每一对实体和关系的三元组进行预测。实体和关系的向量可以通过最大化已知正确三元组的打分函数来训练获得。

然而,在训练实体、关系向量与打分函数的过程中,这类方法并没有利用实体和关系本身隐藏的位置特征。此外,由于实体和关系向量化方法数据驱动特点,如果训练结果中某一类关系或者实体数据量很小,训练出的这一关系或实体的向量针对打分函数可能会导致过拟合等问题。

事实上,现有的知识库中储存着海量的位置相关的实体和关系。例如,在三元组(鲁迅,WasBornIn,绍兴)中,实体“绍兴”有明确的位置特征。利用实体“绍兴”的属性可以获得位置特征,进而可以推测实体“鲁迅”隐含的位置特征,利用位置的隐含特征构造规则约束。例如,在判断三元组(鲁迅,WasBornIn, 浙江)是否成立时,利用实体“鲁迅”的位置特征和空间位置的规则判断,可以约束判断的最终结果。

在本文中, 我们提出了一种针对位置关系的基于向量化和规则的链接预测方法。位置相关的关系指的是三元组中至少含有一个实体,其属性或者本身含义带有位置的特点。例如,至少有一个实体是一个地名、一个区域名称、一个兴趣点名称等。

首先,针对基于位置的三元组,我们根据其特点把基于位置的关系分成了三类: 包含关系、相邻关系和相交关系。包含关系是两个实体本身的地理坐标范围是相互包含的,例如LoactedIn。相邻关系是指两个实体本身的地理坐标范围是相互分离的,但在一定距离内,例如NearBy。相交关系是指两个实体本身的地理坐标范围是相互交叉的,例如HasSameHometown。针对不同的实体,我们提取出不同的隐藏位置特征。针对不同的关系类型,我们提取不同的规则。实体的隐藏位置特征主要由实体本身的位置(如经纬度或地名)和它的辐射范围组成。规则主要分成两类: 一类是通用规则。例如,两个实体间拥有NearBy 关系必然会存在HasNeighbour 关系,同时NearBy 关系的实体必须是属于Location 类型的。另一类是位置规则。例如,实体h和实体t的隐藏位置特征是后者包含前者,则两个实体间有可能存在包含这类的关系。最后,我们利用规则对向量化方法结果进行约束,得到最终的结果,如图1所示。

图片

图1 基于位置的向量化和规则链接预测方法

我们的方法有以下优点: (1)规则的使用降低了计算空间并提高了准确度;(2)保留了向量化方法的优点,同时加入了隐藏的位置信息;(3)它是一个通用的框架,能够适用各种通用的向量化方法和规则。

综上所述,本文的贡献如下:

(1) 针对基于位置的三元组,我们提出了挖掘实体和关系位置特征的方法。

(2) 提出了一种针对位置关系的基于向量化和规则的链接预测方法。

(3) 利用WikiData、FB和WN的数据集进行实验,证明针对位置相关的链接预测,本方法比其他方法准确度有所提高。

1 相关工作

知识图谱的链接预测通常是指给定一组三元组,预测其成立的可能性。根据Nickel Maximilian[1]的研究,知识图谱链接预测通常分为三大类: (1)通过实体和关系的隐含特征将其转换成低维向量的方法[2-3];(2)基于图特征的方法[4-5];(3) 基于马尔科夫概率图利用一阶谓词逻辑[6]或者软逻辑(probabilistic soft logic)[7]来预测。

基于向量化的知识图谱链接预测方法的核心是用向量来表达实体和关系隐藏的特征。RESCAL[2]和TransE[8]是两个典型的方法。它们通过最小化结构风险或边界误差来学习隐藏的向量。然而,在学习和预测的过程中,这类方法都没有利用潜在的位置特征和应用规则。TRESCAL[9]将规则和RESCAL整合在了一起,但它仅能使用单一规则(例如某种关系的实体必须是特定的类型)。Rocktäschel等[10]提出了将一阶谓词逻辑映射成低维向量。但是他们的方法中规则并没有直接起到链接预测的作用,也没有降低预测的复杂度。Wang Q等[11]提出了一种基于整数线性规划(ILP)的方法,将向量化结果和规则整合起来进行链接预测

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值