论文简读-BootEA-《Bootstrapping Entity Alignment with Knowledge Graph Embedding》

最新推荐文章于 2024-06-12 09:56:46 发布

置顶六娃_lw

最新推荐文章于 2024-06-12 09:56:46 发布

阅读量1.6k

点赞数 2

分类专栏：知识图谱实体对齐文章标签：算法 python 人工智能

本文链接：https://blog.csdn.net/qq_26623993/article/details/107082946

版权

知识图谱同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

实体对齐

4 篇文章 2 订阅

订阅专栏

# 论文简读-BootEA-《Bootstrapping Entity Alignment with Knowledge Graph Embedding》

引用：Zequn Sun, Wei Hu, Qingheng Zhang, and Yuzhong Qu. 2018. Bootstrapping entity alignment with knowledge graph embedding. In Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI’18). AAAI Press, 4396–4402

原文：https://www.ijcai.org/Proceedings/2018/0611.pdf
源码：作者公开的源码 OpenEA中的源码

1. 摘要

基于嵌入的实体对齐将不同的知识图谱（KG）表示为低维嵌入，并通过测量实体嵌入之间的相似度来找到对齐实体。现有的方法已经取得了可喜的结果，但是，它们仍然面临着缺乏足够的事先对齐作为标记训练数据的挑战。在本文中，我们提出了一种基于嵌入的实体对齐的自扩展（bootstrapping）方法。它迭代地将可能的实体对齐标记为训练数据，用来学习以对齐为导向的KG嵌入。此外，它采用对齐编辑方法来减少迭代过程中的错误累积。我们在真实数据集上的实验表明，该方法在实体对齐方面明显优于基于嵌入的最新方法。提出的面向路线的KG嵌入，自举过程和路线编辑方法均有助于性能的提高。

2. 问题定义

$X$ 和 $Y$ 分别为KG1和KG2的实体集。目标是找出 $A=\{(x,y)\in X\times Y|x\,is\,same \,as \,y\}$ 。 $X^{'}$ 和 $Y^{'}$ 分别为KG1和KG2的中未在对齐实体对中出现的实体集合。
如下公式定义两个实体向量之间的相似度：
在这里插入图片描述
$s i m (.)$ 表示余弦相似度， $\sigma(.)$ 表示sigmoid函数。根据最大化相同实体之间相似度之和，选择最优的实体嵌入，其公式如下：

其中 $L x$ 表示 $Y$ 中与x等价关系的实体， $1 [.]$ 表示当[]内的条件满足时取1，否则取0。

3. 方法

3.1. AlignE

3.1.1. 目标函数

AlignE将KG1和KG2 嵌入到统一向量空间，并使用翻译模型定义三元组 $(h, r, t)$ 的距离函数：
在这里插入图片描述

基于该距离函数提出目标函数：
在这里插入图片描述

3.1.2. $\epsilon$ 截断均匀抽样法

提出 $\epsilon 截断均匀抽样法$ 来生成负样本。该方法不同于以往的随机抽样替换，而是取 $s$ 个与正样本三元组中实体最相似的实体作为候选实体，其中 $s=ceil((1-\epsilon)\times N),\epsilon \in[0,1)$ ，相似度的计算依然使用余弦相似度。该抽样方法使得表示学习模型能够更好地区分两个相似的三元组（一个为正样本，另一个为根据该抽样法得到的负样本）。

3.1.3. 参数交换（parameter swapping）

提出参数交换（parameter swapping）策略，利用对齐实体对，使用其中一个KG的实体向量替换另一个KG三元组中的对齐实体，以达到扩充正样本的目的，其公式如下：
在这里插入图片描述

3.2. BootEA

3.2.1. Bootstrapping方法

在每一轮迭代中，选择若干个置信度较高（全局最高）的对齐实体对添加到训练集中。第 $t$ 轮迭代中，新增的实体对齐按照如下目标进行选择：
在这里插入图片描述

其中 $\Theta^{(t)}$ 表示第 $t$ 轮迭代中实体的嵌入， $\psi^{(t)}(x,y)$ 为指示函数，指示 $x$ 和 $y$ 是否对齐。 $Y'_x$ 表示 $x$ 的候选集合， $Y'_x=\{y|y \in Y'\,and\,\pi(x|y;\Theta^{(t)})>\gamma_3)\}$ ，其中 $\gamma_3$ 为相似度阈值，相似度超过该值则选入候选集合。作者采用二分图的最大权值匹配算法来实现目标公式(5)。

3.2.2. 对齐编辑方法（alignment editing method）

由于新增的实体对齐不一定是正确的，错误的实体对齐训练样本会误导后续训练过程，因此作者提出了对齐编辑方法：假设KG1中的实体 $x$ 在某两轮迭代中分别与KG2中的实体 $y$ 和 $y^{'}$ 对齐，将 $y$ 和 $y^{'}$ 中与 $x$ 相似度更高的实体作为 $x$ 对齐实体。公式描述如下：
在这里插入图片描述

3.2.3. 从整体中学习

定义KG1中实体 $x$ 的对齐实体 $y$ 的概率分布函数 $\phi_x(y)$ ：
在这里插入图片描述
根据概率分布函数定义对齐优化目标函数：

结合alignE的目标函数得到BootEA的目标函数：

其中 $\mu_2$ 为平衡超参。

4 实验

4.1. 数据集

采用DBP15K和DWY100K。

4.2. 实验结果

在这里插入图片描述
从数据中可以看出，AlignE比以往的方法好，证明了提出的 $\epsilon截断$ 和 $参数交换方法$ 有效。BootEA大大优于AligneE，证明了 $b o o t s t r a p p i n g 策略$ 和 $对齐编辑$ 能够有效缓解对齐样本数据不足的问题，能够大幅提升实体对齐的精确度。

文章为阅读随笔，如有错误之处请批评指正，感谢您的阅读！

六娃_lw

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文简读-BootEA-《Bootstrapping Entity Alignment with Knowledge Graph Embedding》

BootEA论文简读《Bootstrapping Entity Alignment with Knowledge Graph Embedding》引用：Zequn Sun, Wei Hu, Qingheng Zhang, and Yuzhong Qu. 2018. Bootstrapping entity alignment with knowledge graph embedding. In Proceedings of the 27th International Joint Conference o
复制链接

扫一扫