《Iterative Entity Alignment via Joint Knowledge Embeddings》论文解读

本文提出了一种联合知识嵌入的新方法来实现实体对齐,并基于迭代训练的方式来提高对齐的性能。该方法能根据异构知识图谱的内部结构信息(实体和关系),学习知识的分布式表示,将异构知识图谱中的实体和关系共同编码成一个统一的连续的低维语义向量空间,根据在该联合语义空间中实体间的语义距离进行实体对齐。

传统方法

传统的实体对齐方法专注于某些结构良好的模式或本体,如维基百科中的信息框,倾向于使用知识图谱的外部信息,但这些信息的可扩展性差,只适用于某些具体的应用。
传统的知识补全方法通常消耗大量的人力,比如众包方法或利用设计好的手工特征等方法,这些方法通常能够取得高准确率,但通常大量消耗时间、人力,且缺乏延伸性和灵活性。


现有方法

大多数现有的方法通常依赖于诸如维基百科链接这样的实体外部信息,且需要构造昂贵的受冻特征来完成对齐。现有方法可分为两大类:基于图的方法和知识嵌入方法。

1、基于图的方法
对于基于图的方法来说,也有将不同知识图谱中的异构信息用于知识对齐的方法,并有人提出用迭代训练的方法改善对齐性能,虽然达到了高准确率,但这种方法应用在大规模知识图谱上时,通常需要花费大量时间,具有高计算复杂性。

2、知识嵌入方法
知识嵌入方法,或称为知识表示学习方法,是指将不同知识图谱的实体和关系编码成统一的连续的低维向量空间,将关系解释为头实体和尾实体之间的翻译操作。在这个语义空间中,具有相同意义或相关意义的实体往往彼此接近,因此可根据实体间的语义距离进行实体对齐。
本文中提到的知识嵌入方法有:TransE、PTransE、RESCAL、HOLE(基于张量分解,关系被认为是矩阵)和NTN(利用特定关系张量的神经层联合建模头尾嵌入)


本文模型

本文通过研究知识图谱丰富的内部信息对实体对齐的有效性,实现在给定一个对齐实体的种子集的情况下,仅根据知识图谱的内部结构,对不同知识图谱间的实体对进行链接。

该方法所面临的主要挑战是:
1、如何对该方法进行更好的建模;
2、如何有效利用不同知识图谱的内部结构信息,因为这些信息是不完整、有噪声的;
对此,本文提出使用知识表示学习的方法对知识图谱的内部结构信息进行建模,并进一步提出软对齐策略,为可能对齐的实体对计算概率,在某一迭代期之后重新考虑现有的软对齐。

本文中所包含的假设:
1、因为关系是普遍的,所以在本文中假设所有关系类型已经在各个KG之间共享;
2、关系采用手动或自动对齐的方式,假设关系之间的所有实体对齐都是已知的;
负样本集(随机替换三元组中三个组件之一)

本文提出的模型包含三个部分:知识嵌入、联合嵌入和迭代对齐。

1、知识嵌入
使用基于翻译的知识表示学习方法,单独学习不同知识图谱中的实体和关系,以获得知识嵌入。本文使用的模型是TransE和PTransE。因TransE忽视了知识图谱中重要的多步路径信息,对复杂关系的建模效果不理想,故提出PTransE。

2、联合嵌入
根据种子集,学习第一步得到的单独知识图谱的知识嵌入,将所有单个的知识嵌入映射到一个联合的语义空间中。联合嵌入的模型共有三种:
(1)基于翻译的模型
这种方法将对齐视为实体间一个特殊的关系,通过在已经对齐的实体间进行一个特定的对齐翻译操作,以学习联合嵌入。具体方法描述为:给定两个已对齐的实体e1,e2,假定他们之间存在一种对齐关系r,则e1+r=e2,之后再运用知识嵌入的方法来得到联合嵌入的目标函数等。
(2)线性转换模型
通过学习不同知识图谱的知识嵌入的线性转换,具体方法描述为:给定两个已对齐的实体e1,e2,定义一个转换矩阵。
(3)参数共享模型
因对齐的实体在不同的知识图谱中具有相同的含义,因此可以直观地使这些对齐的实体共享相同的知识嵌入。该方法将不同知识图谱的知识嵌入校准到相同的语义空间,不存在规则化变量,揭示了实体及其对应实体共享相同的内在知识的事实。

基于知识嵌入和联合嵌入这两步,我们能够在同一语义空间,根据实体间的语义距离进行实体对齐。实体间语义距离的计算方法根据联合嵌入模型的不同而不同。
对于在源知识图谱中每一个未对齐的实体,在目标知识图谱中找到距离最近的未对齐的实体,形成候选实体对,可定义“距离阈值”这一参数,来生成“新对齐实体”。

3、迭代对齐
迭代对齐:通过将“新对齐实体”加入到种子集中,更新联合嵌入,并发现更多的对齐实体。
在迭代学习过程中会有新的对齐实体对出现,若其中某一实体具有某种关系,则意味着该实体对应的对齐实体可能也具有某种关系。
为联合嵌入和迭代实体对齐设计了两种策略:
(1)硬对齐
直接将联合嵌入部分的参数共享模型应用到新对齐实体上,将新对齐实体对添加到种子集中,之后根据更新的种子集再去更新联合嵌入部分的参数共享模型,再利用更新后的模型生成新对齐实体,以此不断实现迭代,直至没有新对齐实体产生。
(2)软对齐
因在实体对齐过程中会出现不可避免的错误,硬对齐会产生错误累积的问题。因此可为每个新对齐实体分配可靠性指数,可结合联合嵌入的三种模型共同使用。具体方法描述为:建立一个新集合M,迭代的加入新对齐实体对,并定义一个映射函数,为每一个对齐实体对计算可靠性指数(sigmoid函数),可靠性指数与语义距离是相对应的,之后再根据可靠性指数定义软对齐策略的目标函数等。
该策略能帮助远离对齐种子集的实体对正确对齐,从而提高整体性能。

最终该方法的目标函数是三个部分目标函数的总和。


数据集

本文基于FB15K建立了4个数据集,FB15K是从Freebase中抽取得到的,共包含14951个实体,1345种关系和592213个三元组。其中前三个数据集用来做实体对齐试验,最后一个用来做知识图谱补全试验。
种子集:已知的包含同意义的多个实体,其中的两两实体称为对齐实体。

本文对数据集的具体设置如下:
(1)前三个数据集
将FB15K中的三元组随机分成数量相近的两个子集(可看成是两个知识图谱),使两个子集间共享三元组的数量满足预先定义的重复率,从而两个知识图谱中的实体集和关系集被确定。在本文中,三个数据集的种子集数量不同,两知识图谱间的重复率也不同。
将已知的所有对齐实体设为种子集,其他未知的设为测试集和验证集。
(2)第四个数据集
从FB15K中抽取三个三元组集合,分别用作第四个数据集的训练集、测试集和辅助训练集。先抽取测试集,然后将剩余三元组分成两个子集:训练集和辅助训练集(可看成两个知识图谱)。
实体集、关系集和对齐种子集的设置同第一个数据集。


模型详细设置

联合嵌入部分使用了基于参数共享的模型和基于翻译的模型(TransE和PTransE)来对比,迭代对齐部分使用了硬对齐和软对齐来对比,并且还比较了迭代方法和非迭代方法的实验效果。其中,联合嵌入部分基于翻译的模型(TransE和PTransE)和线性转换模型中的参数都设置为参考论文中性能表现最好的,除了嵌入维度n和学习率λ,PTransE使用的是“ADD,2-STEP”版本。
使用SGD优化器来进行训练;知识嵌入所需的实体和关系,通过绘制正态分布来初始化;在软对齐中,为实现更好的性能,在每个对齐迭代过程中用阈值限制了新对齐实体的数量。

对于超参数的设置,在{0.5,1.0,1.5,2.0}中选择余量γ;设置实体和关系编码的维度为n=50,学习率λ=0.001,epoch=3000;对于迭代对齐部分的硬对齐和软对齐策略,在{0.5,1.0,2.0,3.0,4.0}中选择阈值θ;对于软对齐,在{0.5,1.0,2.0}中选择k。

模型的最佳配置是:γ= 1.0,k = 1.0,B = {1000,1500,2000,2500},C ={5000,6000,7000,8000},对于硬对齐,θ= 1.0,对于软对齐,θ= 3.0(因硬对齐对实体对齐错误更敏感)。


模型评估

本文在两个任务上对模型进行评估:实体对齐任务和知识图谱补全任务(主要是实体预测和关系预测)。
1、实体对齐任务
评估指标:(1)正确实体或关系的平均排序;(2)正确答案排在前10名和前1名的比例。评估指标(1)的数值越低越好,评估指标(2)的数值越高越好。因正确答案排在前10名与排在前1名的趋势相同,故本文只计算了排在前1名的比例。
该任务在前三个数据集上进行试验,并设置从第1000次迭代开始,每500次迭代进行一次软对齐。
2、知识图谱补全任务
知识图谱补全:当知识图谱中的三元组(e1,r,e2),其中之一缺失时,补全该三元组。
在该任务中,将任务具体分成了两个子任务:实体预测和关系预测。

评估指标:(1)正确实体或关系的平均排序;(2)对实体来说,正确答案排在前10的比例;对关系来说,正确答案排在前1的比例;此外,还有两个其他的评估设置:raw和filter。
评估指标(1)的数值越低越好,评估指标(2)的数值越高越好。
基线模型:仅利用数据集4的训练集信息,用TransE和PTransE分别训练模型;利用训练集中的所有三元组和辅助训练集中头尾实体都在对齐种子集中的三元组信息;用TransE和PTransE分别训练模型;将TransE和PTransE替换为MTransE (LT)和MTransE (TB)。


实验结果

实验结果表明:(1)本文提出的方法可以成功地利用来自辅助知识图谱的信息改进知识嵌入;(2)通过迭代添加新对齐的实体对到种子集中,我们可以实现更多信息丰富的知识嵌入,即实体对齐能帮助模型更好的学习知识嵌入,本文通过知识图谱补全对此进行评估。


未来工作

(1)本文提出的方法仅考虑了知识图谱的内部结构信息,未来还可整合知识图谱丰富的外部信息来进行实体对齐;
(2)本文只是在三元组数据集上对模型进行了评估,未来可用真实的知识图谱来评估模型;
(3)除了本文实验中所使用的知识嵌入模型,还有很多其他有效的知识表示学习模型,未来可探索这些模型在我们方法中的有效性。

Github地址:https://github.com/thunlp/IEAJKE

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值