论文简读-BootEA-《Bootstrapping Entity Alignment with Knowledge Graph Embedding》

# 论文简读-BootEA-《Bootstrapping Entity Alignment with Knowledge Graph Embedding》

引用:Zequn Sun, Wei Hu, Qingheng Zhang, and Yuzhong Qu. 2018. Bootstrapping entity alignment with knowledge graph embedding. In Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI’18). AAAI Press, 4396–4402

原文:https://www.ijcai.org/Proceedings/2018/0611.pdf
源码:作者公开的源码 OpenEA中的源码

1. 摘要

基于嵌入的实体对齐将不同的知识图谱(KG)表示为低维嵌入,并通过测量实体嵌入之间的相似度来找到对齐实体。 现有的方法已经取得了可喜的结果,但是,它们仍然面临着缺乏足够的事先对齐作为标记训练数据的挑战。 在本文中,我们提出了一种基于嵌入的实体对齐的自扩展(bootstrapping)方法。 它迭代地将可能的实体对齐标记为训练数据,用来学习以对齐为导向的KG嵌入。 此外,它采用对齐编辑方法来减少迭代过程中的错误累积。 我们在真实数据集上的实验表明,该方法在实体对齐方面明显优于基于嵌入的最新方法。 提出的面向路线的KG嵌入,自举过程和路线编辑方法均有助于性能的提高。

2. 问题定义

X X X Y Y Y分别为KG1和KG2的实体集。目标是找出 A = { ( x , y ) ∈ X × Y ∣ x   i s   s a m e   a s   y } A=\{(x,y)\in X\times Y|x\,is\,same \,as \,y\} A={(x,y)X×Yxissameasy} X ′ X' X Y ′ Y' Y分别为KG1和KG2的中未在对齐实体对中出现的实体集合。
如下公式定义两个实体向量之间的相似度:
在这里插入图片描述
s i m ( . ) sim(.) sim(.)表示余弦相似度, σ ( . ) \sigma(.) σ(.)表示sigmoid函数。根据最大化相同实体之间相似度之和,选择最优的实体嵌入,其公式如下:
在这里插入图片描述
其中 L x Lx Lx表示 Y Y Y中与x等价关系的实体, 1 [ . ] 1[.] 1[.]表示当[]内的条件满足时取1,否则取0。

3. 方法

3.1. AlignE

3.1.1. 目标函数

AlignE将KG1和KG2 嵌入到统一向量空间,并使用翻译模型定义三元组 ( h , r , t ) (h,r,t) (h,r,t)的距离函数:
在这里插入图片描述

基于该距离函数提出目标函数:
在这里插入图片描述

3.1.2. ϵ \epsilon ϵ 截断均匀抽样法

提出 ϵ 截 断 均 匀 抽 样 法 \epsilon 截断均匀抽样法 ϵ来生成负样本。该方法不同于以往的随机抽样替换,而是取 s s s个与正样本三元组中实体最相似的实体作为候选实体,其中 s = c e i l ( ( 1 − ϵ ) × N ) , ϵ ∈ [ 0 , 1 ) s=ceil((1-\epsilon)\times N),\epsilon \in[0,1) s=ceil((1ϵ)×N),ϵ[0,1),相似度的计算依然使用余弦相似度。该抽样方法使得表示学习模型能够更好地区分两个相似的三元组(一个为正样本,另一个为根据该抽样法得到的负样本)。

3.1.3. 参数交换(parameter swapping)

提出参数交换(parameter swapping)策略,利用对齐实体对,使用其中一个KG的实体向量替换另一个KG三元组中的对齐实体,以达到扩充正样本的目的,其公式如下:
在这里插入图片描述

3.2. BootEA

3.2.1. Bootstrapping方法

在每一轮迭代中,选择若干个置信度较高(全局最高)的对齐实体对添加到训练集中。第 t t t轮迭代中,新增的实体对齐按照如下目标进行选择:
在这里插入图片描述

其中 Θ ( t ) \Theta^{(t)} Θ(t)表示第 t t t轮迭代中实体的嵌入, ψ ( t ) ( x , y ) \psi^{(t)}(x,y) ψ(t)(x,y)为指示函数,指示 x x x y y y是否对齐。 Y x ′ Y'_x Yx表示 x x x的候选集合, Y x ′ = { y ∣ y ∈ Y ′   a n d   π ( x ∣ y ; Θ ( t ) ) > γ 3 ) } Y'_x=\{y|y \in Y'\,and\,\pi(x|y;\Theta^{(t)})>\gamma_3)\} Yx={yyYandπ(xy;Θ(t))>γ3)},其中 γ 3 \gamma_3 γ3为相似度阈值,相似度超过该值则选入候选集合。作者采用二分图的最大权值匹配算法来实现目标公式(5)。

3.2.2. 对齐编辑方法(alignment editing method)

由于新增的实体对齐不一定是正确的,错误的实体对齐训练样本会误导后续训练过程,因此作者提出了对齐编辑方法:假设KG1中的实体 x x x在某两轮迭代中分别与KG2中的实体 y y y y ′ y' y对齐,将 y y y y ′ y' y中与 x x x相似度更高的实体作为 x x x对齐实体。公式描述如下:
在这里插入图片描述

3.2.3. 从整体中学习

定义KG1中实体 x x x 的对齐实体 y y y的概率分布函数 ϕ x ( y ) \phi_x(y) ϕx(y)
在这里插入图片描述
根据概率分布函数定义对齐优化目标函数:
在这里插入图片描述
结合alignE的目标函数得到BootEA的目标函数:
在这里插入图片描述
其中 μ 2 \mu_2 μ2为平衡超参。

4 实验

4.1. 数据集

采用DBP15K和DWY100K。

4.2. 实验结果

在这里插入图片描述
从数据中可以看出,AlignE比以往的方法好,证明了提出的 ϵ 截 断 \epsilon截断 ϵ 参 数 交 换 方 法 参数交换方法 有效。BootEA大大优于AligneE,证明了 b o o t s t r a p p i n g 策 略 bootstrapping策略 bootstrapping 对 齐 编 辑 对齐编辑 能够有效缓解对齐样本数据不足的问题,能够大幅提升实体对齐的精确度。

文章为阅读随笔,如有错误之处请批评指正,感谢您的阅读!

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

六娃_lw

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值