实体对齐——阅读笔记

实体对齐

实体对齐简介:不同的只是图谱对同一个实体的描述,会有差异。通过知识融合可以将不同知识图谱中的只是进行互补融合。

实体对齐的目的:判断两个或者多个不同信息来源的实体是否为指向真实世界中同一个对象,将具有相同指称的命名实体聚集在一起。

image-20210414145318926

一、《A Survey on Entity Alignment of Knowledge Base》2016

Abstract

首先形式化定义了知识库实体对齐问题,然后对知识库的实体对齐工作进行总体概述,并从对齐算法特征匹配技术分区索引技术三个方面详细总结了各种可用方法和研究进展。重点从局部和全局两个角度对主流的集体对齐算法进行详细阐述,并介绍常用的评测数据集。

知识库一般使用RDFS ( resource descriptionframework schema)或者OWL(Web ontology language)等语言描述的本体构建,这里的本体是一种采取不同的结构化形式表示的形式化的世界知识,其中定义了类别(class)、**属性( property)实例(instance)**等基本元素,这些元素都可以看作是知识库中的实体(entity)。知识库的对齐的研究工作开始于“本体匹配"(ontology matching)[2-4] ,初期主要是针对本体类别的语义相似性进行匹配。

1. 问题描述

1.1 知识库实体对齐的相关概念

知识库可以看作是对客观世界的事物及其相互关系的一种形式化的描述,本文选择六元组的方式进行定义,RDF规范定义一条事实三元组,分为主语、谓语和宾语组成,可以简写为SPO。

定义:知识库,KB=(I,L,R,P,FR,FP)。其中I,L,R,P分别为1组实例、字面量、关系和属性的集合,FR是一个SPO三元组表示宾语为实例的关系事实;FR是一个SPO三元组表示宾语为字面量的属性事实。

将实体对齐进行形式化定义,知识库的实体对齐定义为知识库中的实例匹配,其形式化定义为:

image-20210413204627364

图1为知识库的实体对齐的过程,可以描述为:给定2个知识库和1组先验对齐的数据(可以称为对齐算法的训练数据),在可选的调节参数和外部资源(背景数据)共同控制下进行实体匹配的计算最终得到对其结果。

image-20210413204825845

1.2 对齐质量和效率的评价相关概念

可分为质量和效率两个方面

1)质量评价只要是指对齐的准确性和全面性的评价指标。

  • 精度,也称为查准率,用来衡量分类结果的质量,定义为被分类器判断为正类的实例中正确分类的比例,即:
image-20210413210100711
  • 召回率,也称为查全率,用来衡量分类器发现正确匹配的能力,定义为分类器将正类判断为正类的比例,即:
image-20210413210157490
  • F-measure,也称为f-score或者f1-score,是综合考虑精度和召回率的指标,定义为精度和召回率的调和均值,即:
image-20210413210355978

2)效率评价主要是指对齐算法中一些分区索引技术对候选匹配对的筛选能力和准确性的度量评价标准。

1.3 问题与挑战

1)计算复杂度挑战。进行2个知识库实体匹配的时候,为了发现所有的匹配对,需要将一个知识库中所有实体与另一个知识库中所有的实体进行比较。

2)数据质量挑战。主要由于不同的知识库的构建目的和构建方式不同:相同实体有不同的名字,相同的名字指代不同的实体,实体定义粒度不同,相同的属性在不同知识库中具有不同的判别能力,相同类别的实体在不同知识库中具有不同数量的属性。

3)先验对齐数据的获取挑战。先验对齐数据也称为训练数据,在知识库实体对齐过程中具有重要的作用,无论是对匹配的准确度还是算法的收敛速度都会产生重要影响。

2. 知识库实体对齐技术概述

实体对齐算法可以分为只考虑实例及其属性相似程度的成对实体对齐在成对对齐基础上考虑不同实例之间相互关系用以计算相似度的集体实体对齐。2类算法的配合使用时解决知识库实体对齐的主要内容。

对实体属性以及相互关系相似程度对衡量需要用到相似性函数,称为相似性函数的特征匹配。相似性函数可以分成两类1)用于实体匹配中属性的相似性比较,即常用的文本相似性函数。2)用于实体匹配的实体关系比较,称为结构相似性函数。

知识库对齐的详细流程如图3,待对齐的知识库经过数据预处理进入实体对齐算法模块,算法首先对待对齐数据进行分区索引,降低计算复杂度,然后利用文本相似性函数进行成对匹配,再通过结构相似性函数或其它一些利用关系相似性的算法进行集体匹配,最终将两方面的结果结合起来形成最终对齐结果。

image-20210414142240730

2.3 基于相似性函数的特征匹配

一般在知识图谱实体对齐过程中,2个实体e1和e2的相似性函数定义为:

image-20210330133252678

其中simAtrrr是属性相似性,simNB是结构相似性函数。

基于token的相似性函数,这种方法将待匹配的实体对看作是一系列token的集合;其次介绍基于编辑距离的相似性函数,这种方法将待匹配的实体作为文本字符串整体处理。混合型相似性函数。

3. 实体对齐算法

3.1 成对实体对齐方法

3.1.2 基于机器学习的实体对齐方法

将实体对齐看作是二元分类问题,根据是否使用标注数据可以分为有监督学习和无监督学习。主动学习属于有监督学习,通过不断交互获得更加准确的训练数据。

3.1.2.1 监督和半监督机器学习

监督学习需要预先标注部分实体匹配与否作为训练数据

4. 基于相似性函数的特征匹配

4.1 基于文本的相似性函数的特征匹配

4.1.1 基于token的相似性函数

基于token的相似性函数使用某种函数将带匹配的文本字符串转换为一系列子串的集合,我们称这些子串为token,这个函数为标记化函数,记为tokenize()。常用的基于token的相似性函数主要有:Jaccard相似性函数、余弦相似性函数和基于q-gram的相似性函数。

4.1.2 基于编辑距离的相似性函数

将待匹配的文本字符串看成一个整体,通过将一个字符串转换为另一个字符串所需要的编辑操作的最小代价作为衡量2个字符串相似性的度量,操作有:插入、删除、替换、交换位置等。

4.2 基于结构相似性函数的特征匹配

常用的相似性函数包括直接计算实体对的共同邻居计数、共同邻居的Jaccard相关系数、Adar评分

二、《Bootstrapping Entity Alignment with Knowledge Graph Embedding》2018

《利用知识图嵌入引导实体对齐》

GitHub:https://github.com/nju-websoft/BootEA

南京大学 软件新技术国家重点研究实验室

前提知识

1、实体对齐(entity alignment)也被称为实体匹配(entity matching),主要用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。

2、Bootstrap是一种统计学上的估计方法,它的实质是对数据进行再抽样,进而对总体的分布特性进行统计推断,是通过多次重抽样对已有样本进行了最大程度的利用,并没有额外增加样本。样本有限,抽样次数在足够多的情况下,Bootstrap可以最大程度地估计出当前样本的统计特性。

单一的知识图谱很难满足多元知识的需要,一种有效的方式是通过实体对齐(entity alignment)将多种知识图谱的异构知识集成起来。但有限的训练数据会使得embedding不准确,实体对齐的精确度不高。因此本文提出了一个基于Bootstrap的实体对齐技术。

Abstract

单一的知识图谱很难满足多元知识的需要,一种有效的方式是通过实体对齐(entity alignment)将多种知识图谱的异构知识集成起来。基于嵌入的实体对齐(entity alignment)将不同的知识图谱表示为低维嵌入,并通过测量实体嵌入之间的相似度来实现实体对齐。现有的实体对齐的方法也很多,但有限的训练数据会使得embedding不准确,实体对齐的精确度不高。因此本文提出了一个基于Bootstrap的实体对齐方法。该方法迭代地将可能的实体对齐标记为训练数据,以学习面向实体对齐的知识图谱嵌入。该方法还是用了一种对齐editing的技术,来最小化迭代误差。

1. Introduction

近年来,知识图谱KG受到越来越多的关注,用处很广,例如自动问题系统(question answering)、语义搜索(semantic search)和知识推理(knowledge reasoning)等。其中,为了捕获知识图谱中隐藏的语义,许多研究工作已投入到KG嵌入中。 它的关键思想是在KG中将元素(例如实体和关系)表示为低维向量(称为嵌入),同时保留KG固有的语义。

本文的贡献有:

  1. 把实体对齐转换为分类问题
  2. 提出了一种 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NwwcmNJ0-1618750455774)(https://www.zhihu.com/equation?tex=%5Cepsilon)] 截断的负采样

3. 问题描述

X表示KG1中的实体集,Y表示KG2中的实体集。实体对齐的目标是找到集合 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D8m74HkN-1618750455776)(https://www.zhihu.com/equation?tex=A+%3D%5C%7B+%28x%2Cy%29+%5Cin+X%5Ctimes+Y%7Cx+_%7B%5Csim+R%7D++y+%5C%7D)] , [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4utglQh6-1618750455778)(https://www.zhihu.com/equation?tex=%5Csim+R)] 表示x和y是等价关系X’ 和Y ′是已有的训练集。

本文将实体对齐问题转化为分类问题,即用Y中的实体对X的实体打标签。考虑一对一的实体对齐问题:一个实体最多可以与一个标签相关联,并且标签最多可以分配给一个实体。该约束使得实体对齐中的分类问题与一般的分类问题有所区别,令 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NKSR8k6j-1618750455781)(https://www.zhihu.com/equation?tex=%5CTheta)] 表示KG1和KG2的嵌入,定义用y对x打标签的概率 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L6MYltKR-1618750455783)(https://www.zhihu.com/equation?tex=%5Cpi%28y%7Cx%3B%5CTheta%29)] 为:

img

σ表示sigmoid函数,sim是相似性测量函数。在本文中,使用余弦相似性度量,即

img

使用最大似然准则

image-20210412221723807

其中, [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ai1pWB6d-1618750455787)(https://www.zhihu.com/equation?tex=L_x)] 表示实体x的真实标签, [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vfXrmLoi-1618750455788)(https://www.zhihu.com/equation?tex=1_%7B%5B%5Ccdot%5D%7D)] 是指示符函数,表示给定命题的真假值(1或0)。

不能让~v (L x) = ~v (x)。这样,初始化的嵌入在不需要任何训练的情况下,就可以实现对标记实体的最高对齐可能性。但这不适用于实体对齐,因为它无法保存未标记实体的任何信息。

4. Methodology

4.1 基于实体对齐的知识图谱嵌入

在单个知识图谱中,实体之间的多样化关系描述了其语义。

基于translation的模型在KG语义建模中表现很好,定义得分函数 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fGi26IDx-1618750455789)(https://www.zhihu.com/equation?tex=f%28%5Ctau%29)] 来衡量三元组 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lF6Bz47x-1618750455790)(https://www.zhihu.com/equation?tex=%5Ctau+%3D%28h%2Cr%2Ct%29)] 的合理性:

**首先,**考虑到正负样本的训练问题,使用了限制损失的embedding目标函数:

其中, [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y89xpk4y-1618750455791)(https://www.zhihu.com/equation?tex=T%5E%2B)] 和 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-00AYOwVV-1618750455793)(https://www.zhihu.com/equation?tex=T%5E-)] 分别是正、负例样本集; [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bnZm52sX-1618750455794)(https://www.zhihu.com/equation?tex=%5B%5Ccdot%5D_%2B%3Dmax%28%5Ccdot%2C0%29)],[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dSfcs2FM-1618750455795)(https://www.zhihu.com/equation?tex=%5Cgamma_1%2C%5Cgamma_2)] 是三个超参数, [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VEUX3QJ6-1618750455797)(https://www.zhihu.com/equation?tex=%5Cmu_1%3E0)] 也是一个超参数。并且,使用ϵ去除负样本生成,即从当前样本的最近 s = ⌈ ( 1 − ϵ ) N ⌉ s = ⌈ ( 1 − ϵ ) N ⌉ s=(1ϵ)N个样本中挑选负样本,使负样本更难从正样本中分别出。其中 ϵ ∈ [ 0 , 1 ] \epsilon \in[0,1] ϵ[0,1]是比例,N是知识图谱中样本的总数目, ⌈ ⋅ ⌉ \lceil\cdot\rceil 是向上取整函数(ceiling function)。

正三元组预期具有低分数,而负三元组预期具有高分数,即f(τ)≤γ1和f(τ’) ≥ γ2。因此,我们可以根据需要直接控制正负三元组的绝对分数。在实践中,我们设置γ2 >γ1,γ1是一个小的正值。第二,我们有f(τ’)-f(τ)≥γ2-γ1,这表明所提出的目标函数仍然保留了基于边际的排序损失的特征。

涉及到的主要方法有:

(1)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cdwpsmrh-1618750455798)(https://www.zhihu.com/equation?tex=%5Cepsilon)] -Truncated Uniform Negative Sampling

如何生成负样本呢?比如**随意从正样本(h,r,t)中任意抽一个元素(h或者t)**进行更换可以么?道理上是可以的,但生成的负样本很容易与正样本分开,对嵌入学习几乎没有帮助,例如从(Washington DC, capital of, USA)三元组生成的负样本(Tim Berners-Lee, capital of, USA),我们会发现替代的Tim Berners-Lee和正样本Washington DC是完全正交的。但是如果用New Yorker去替代Washington DC 是个很好的方式呢,显然这样生成的负样本对我们的模型训练是有益的。

这种负样本生成方式可以用 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LhbKQ8O9-1618750455800)(https://www.zhihu.com/equation?tex=%5Cepsilon)]-Truncated Uniform Negative Sampling:给定要替换的实体x,不同于从所有实体中采样其替换者的负采样方法,我们将采样范围限制为一组候选对象。具体来说,是从嵌入空间中距离x最近的s个样本中去采样,

img

[]表示向上取正函数(ceiling function)。这样,与x具有低相似性的其他实体将被截断,并且不会被采样; 同时保留具有相似特征(例如类型,关系)的难以区分的替换者。 在这里,我们使用嵌入之间的余弦相似度来搜索x的邻居。

(2)Parameter Swapping

对于不同知识图谱KG1 和KG2,利用预先知道的实体对齐信息A’来产生正样本集的过程如下:给定一对对齐的实体 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aj63SWlv-1618750455808)(https://www.zhihu.com/equation?tex=%28x%2Cy%29%5Cin+A%27)] , 产生如下三元组:

img

其中, [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7ru8wgzr-1618750455814)(https://www.zhihu.com/equation?tex=T_1%5E%2B)] 和 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4BsDTalT-1618750455818)(https://www.zhihu.com/equation?tex=T_2%5E%2B)] 分别代表KG1和KG2中的正三元组。那么所有的正样本 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-buUqbxTR-1618750455824)(https://www.zhihu.com/equation?tex=T%5E%2B%3DT_1%5E%2B%5Ccup+T_2%5E%2B+%5Ccup+T%5Es)] , 其中[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UBk1CdoR-1618750455826)(https://www.zhihu.com/equation?tex=T%5Es+%3D+%5Ccup_%7B%28x%2Cy%29%5Cin+A%27%7DT_%7B%28x%2Cy%29%7D%5Es)] . 在得到所有正样本基础上,生成负样本。

4.2 Bootstrapping Alignment

Bootstrap方法主要是解决样本量不足的问题

(1)Likely Alignment Labeling and Editing

本分类问题是实体和标签之间一一对应的,可以通过下述优化问题找到第t次迭代中的标签对齐:

image-20210329210303413

其中, [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZmE17APK-1618750455829)(https://www.zhihu.com/equation?tex=%5CTheta+%5E%7B%28t%29%7D)] 表示第t次迭代的实体嵌入向量; [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pJpDsM6T-1618750455836)(https://www.zhihu.com/equation?tex=Y%27_x%3D%5C%7B+y%7Cy%5Cin+Y%27+%5Ccap+%5Cpi%28y%7Cx%3B+%5CTheta%5E%7B%28t%29%7D%29+%3E%5Cgamma_3%5C%7D)] 是x的候选标签; [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZAZy8se0-1618750455839)(https://www.zhihu.com/equation?tex=%5Cpsi%5E%7B%28t%29%7D%28%5Ccdot%29)] 是待求解的预测函数,当且仅当在第t轮,y是x的标签时取1,其余取0. 这两个约束保证了实体与标签之间的一一对应关系.

求解得到t轮新的对齐集合 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SMR8UR3y-1618750455841)(https://www.zhihu.com/equation?tex=A%5E%7B%28t%29%7D%3D%5Cleft%5C%7B+%28x%2Cy%29%5Cin+X%27%5Ctimes+Y%27%7C%5Cpsi+%5E%7B%28t%29%7D%28x%2Cy%29%3D1+%5Cright%5C%7D.)] 我们以增量方式使用新标记的对齐实体,并利用它来指导后续训练。

尽管对齐效果会随着时间的推移而改善,但标记过程仍可能会产生错误的标签,这会误导后续的训练。 此外,当我们累积不同迭代的新标签对齐方式时,标签冲突是不可避免的。 为了提高标记质量并满足一对一对齐约束,在bootstrap过程中,被标记的实体可以在随后的迭代中被重新标记或变为未标记。 我们采用一种简单但有效的编辑技术来实现这种方式。

在bootstrap过程中,将检查新增加的对齐方式是否有标签冲突。举个例子,假设某个实体x在不同的迭代轮数中产生了有冲突的标签y和y’, 那么我们的方法是选择为x提供更多对齐可能性的标签. 定义似然差: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t5So3l7w-1618750455843)(https://www.zhihu.com/equation?tex=%5CDelta+%7B%28x%2Cy%2Cy%27%29%7D%5E%7B%28t%29%7D%3D%5Cpi%28y%7Cx%3B%5CTheta%5E%7B%28t%29%7D%29-%5Cpi%28y%27%7Cx%3B%5CTheta%5E%7B%28t%29%7D%29)] . 若 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f3Qyr4F0-1618750455846)(https://www.zhihu.com/equation?tex=%5CDelta+%7B%28x%2Cy%2Cy%27%29%7D%5E%7B%28t%29%7D%3E0)] 则说明选择y作为x的标签比选择提供了更多的对齐可能性。因此,我们选择y来标记x。

一个标签分配给多个实体的冲突可以用相同的方法解决。

(2)Learning from Holistic Perspective(从整体学习)

其中当x有标签时, ϕ ( x ) = 1 [ y = L x ] \phi(x)=\mathbf{1}_{[y=L_x]} ϕ(x)=1[y=Lx];当x无标签时, ϕ ( x ) = 1 ∣ Y ′ ∣ \phi(x) = \frac{1}{|Y^{'}|} ϕ(x)=Y1

给定该概率分布后,得到新的对齐目标函数:

image-20210329210551439

最后,不仅需要捕获对齐似然,而且需要对知识图谱的语义建模,得到下面的综合目标函数:

image-20210413190523770

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-krb8iLFq-1618750455854)(https://www.zhihu.com/equation?tex=%5Cmu_2)] 是平衡超参数。其中O_e是知识图谱的目标函数。

4.3 实现细节

我们根据正态分布对KGs的嵌入进行初始化,使用梯度下降优化算法Ada-Grad对上式进行优化。所有嵌入的长度限制为1,避免通过增加嵌入的范数来对目标进行简单的优化。

image-20210329210303413

上式的求解可以转化为二部图上的最大加权匹配问题。我们首先选取满足其似然img,然后构造一个二部图,该图的节点表示实体,边有权表示节点之间的对齐可能性。因此,可以通过在二部图中找到总权值最大的不相交边来解决标记与最大似然对齐的问题。

复杂性的方法,在两个知识图谱中,参数的个数是DM,D表示维度的嵌入和M表示的数量的所有实体和关系。截断统一抽样,寻找[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SRWiFqzV-1618750455857)(https://www.zhihu.com/equation?tex=%5Cepsilon)]nearest邻居的一个实体使用快速选择算法一般需要线性时间。利用启发式算法[Hendrickson and Leland, 1995]将求解上式的时间复杂度简化为线性时间。

5. 实验结果

我们使用hits@k和MRR作为评价指标,其中hits@(k = 1,10)(即正确对齐的实体在top k预测中的比例)和正确(即匹配)实体的排名(MR)的均值来评估模型的性能。hits@k越高,MR越低,性能越好。

当k=1时这个评价指标也就相当于精度。

对于DBP中的每个实体,我们使用Eq. 14来计算与其他KG (LGD/GEO/YAGO)实体的相似度分数。

使用数据集DBP15K、DWY100K。

image-20210330100448763

按照惯例,我们选择Hits@k和平均倒数秩(MRR)作为我们的指标。Hits@k度量排在top k的正确对齐百分比。MRR是结果的相互排名的平均值。请注意Hits@1等同于精度。Hits@k和MRR越高,性能越好。

6. 总结

本文的主要贡献有三个方面:

(1)引入了一种KG嵌入模型来学习不同KGs之间面向对齐的嵌入,采用了截断的均匀负抽样方法来提高对齐性能;

(2)在bootstrapping过程中进行实体对齐。它将可能的对齐标记为训练数据,并在迭代期间编辑对齐;

(3)实验结果表明,该方法在三个跨语言数据集和两个由DBpedia、Wikidata和YAGO3构建的新大规模数据集上显著优于三种最先进的基于嵌入的方法。

在未来的工作中,我们计划研究属性值的跨语言词嵌入。此外,我们希望利用递归神经网络对KGs的复杂语义进行建模。

三、《Entity Alignment between Knowledge Graphs Using Attribute Embeddings》2019

使用属性嵌入的知识图之间的实体对齐

代码:https://bitbucket.org/bayudt/kba/src/master/

摘要

知识图之间的实体对齐任务是在两个知识图中找到代表相同实体的实体。最近,针对这一任务提出了基于嵌入的模型。该模型建立在知识图嵌入模型的基础上,该模型通过学习实体嵌入来捕获同一知识图谱中实体之间的语义相似性。我们建议学习嵌入,可以捕获不同知识图谱中实体之间的相似性。我们提出的模型有助于对齐来自不同知识图的实体,从而实现多个知识图谱的集成。该模型利用知识图中存在的大量属性三元组,生成属性字符嵌入。属性字符嵌入是通过计算实体之间的相似度,将两个知识图上的实体嵌入转移到同一个空间中。我们利用及物性规则进一步丰富实体的属性数量,以增强属性特征的嵌入。使用真实世界知识库的实验表明,在实体对齐任务上,我们提出的模型在hits@1方面比基准模型实现了超过50%的一致改进。

1. Introduction

在本篇论文中,考虑三元组是以RDF三元组形式存储真实事实的KG。 RDF三元组由三个元素组成,形式为⟨ subject, relationship/predicate, object ⟩其中subject表示实体,而object表示实体或文字。如果object是一个实体,我们称该三元组为关系三元组;如果object是文字,我们将三元组称为属性三元组

举一个属性对齐的例子:

属性对齐:例如:“出生年月”、“出生日期”、“生日”、“出生时间”,这些属性名字不同但都是表示同一个含义。

这张图可以看出,通过将KG G1和KG G2共同映射到同一个向量空间Merge G1_2中,就可以计算两个实体之相似度,从而进行实体对齐任务。

image-20210413200414205

最近,针对实体对齐任务提出了基于嵌入的模型,它要求将两个KG嵌入到同一个向量空间中,以适应KG嵌入在两个KG之间的实体对齐。但该方法需要大量的种子实体,这在现实使用中难以获取。本文的主要贡献如下:

  • 我们提出了一个两个KGs之间的实体对齐框架,该框架由谓词对齐模块(predicate alignment module)嵌入学习模块(embedding learning module)、**实体对齐模块(entity alignment module)**组成提出一种新的嵌入模型。
  • 我们提出了一种新的嵌入模型,将实体嵌入和属性嵌入相结合,用来学习对于两个KGs的统一嵌入空间在三对KGs上对模型进行评估。
  • 我们通过三对真实的KG数据库来评估所提出的模型。结果表明,在hits@1方面,我们的模型在实体对齐任务上始终比最先进的模型高出50%以上。

2. Related Work

我们将讨论两组常用的实体对齐方法。

2.1 基于字符串相似度的实体对齐

以前的实体对齐方法使用字符串相似度作为主要的对齐工具。

2.2 基于嵌入的实体对齐

KG嵌入模型已被用于处理KG任务,这些任务旨在根据KG中现有的三元组数据预测缺失的实体或关系。在现有的方法中,基于翻译的模型,如TransE (Bordes et al. 2013),实现了最先进的性能。trans表示一对实体之间的关系,作为实体嵌入之间的转换。

4. Model

模型的框架主要是三个模块,谓词对齐模块(predicate alignment module)嵌入学习模块(embedding learning module)、**实体对齐模块(entity alignment module)**组成提出一种新的嵌入模型。

4.1 谓词对齐

结果:谓词对齐模块通过使用统一的命名方案重命名两个KG的谓词来合并两个KG,以便为关系嵌入提供统一的向量空间。除了符合命名规范的谓词,如:rdfs:label、geo:wgs84 pos#lat等;还有一些相互匹配的谓词,例如:dbp:bornIn 和yago:wasBornIn 我们就需要统一命名,比如将dbp:bornIn和yago:wasBornIn统一为 :bornIn。

方法:为了找到部分匹配的谓词,作者计算谓词URI的最后部分的编辑距离(例如,bornIn与wasBornIn)并将0.95设置为相似性阈值。

模型总览图:

img

4.2 嵌入学习

4.2.1 结构嵌入

简单介绍一下什么是TransE模型

TransE模型

一开始是基于翻译模型提出来的,TransE表明,嵌入的尾实体t应该接近头部的嵌入实体h +的嵌入关系r,即h + r ≈ t.。这样一个模型可以保护实体的结构信息,也就是说,在KG中共享相似邻居结构的实体在嵌入空间中应该有一个紧密的表示。

image-20210415205017078

对于知识图谱的表示,采用传统的TransE模型,并且也采用了随机替换三元组的头实体或者尾实体进行负采样**(ps:个人认为随机替换可能会存在效率不高的情况,如果替换的是相似度比较高的可能会有更好的学习效果)**。这是通过添加一个权值α来控制三元组上的嵌入学习来实现的。为了学习结构嵌入,在我们的模型中,我们最小化以下目标函数jse

img

其中,

img

alpha是一个调节因子。有了一些对齐的实体对和关系对,可以较好的学习到实体的表示。

4.2.2 属性字符嵌入

对于属性字符嵌入,也参考TransE模型的思想,将r解释为从头实体h到属性a的转换。

但是,相同的属性a可以在两个KG中以不同的形式出现,例如50.9989 vs 50.9988888889作为纬度;“巴拉克 Obama” vs “巴拉克 海珊 Obama”作为人名等。因此,本文提出使用组合函数对属性值进行编码,三元组的最后一个部分定义为关于属性a的函数 h + r = f a ( a ) h+r=f_a(a) h+r=fa(a)。其中属性 a = { c 1 , c 2 , ⋯   , c t } a=\{c_1,c_2,\cdots,c_t\} a={c1,c2,,ct}的字符序列。

然后组合函数将属性值的编码转换为单个向量。

对于这些大量的属性三元组,无法和关系三元组一起用在TransE模型上进行学习,因为会造成实体和属性混乱不清而无法进行实体对齐。所以我们对属性三元组单独编码,那如何对属性值进行表示呢,文章用了几种属性值表示的方法:

  • 最简单粗暴的,对每一个字符embedding进行相加,例如“China”的词向量就是每一个字母的词向量之和。但是这样就没有顺序了,于是又提出了第二种。
  • 对每个词用LSTM编码,因为是RNN模型,最终输出一个学习到语序的表示向量,但是这样也学习不到词中的组合形式,于是有了方法三。
  • N-Gram这种经典的词袋模型,可以学习到词内部的组合特征。

有关的公式如下:

img

img

img

然后利用和TransE类似的损失函数来学习属性三元组的表示。

img

4.2.3 联合学习

为了使两个KG中的实体在一个共同的向量空间上,文章将结构embedding和属性Embedding结合起来。求两种Embedding下的实体表示的相似度,将相似度最小化,这样就自然而然的将两个向量空间中实体的表示学习到同一个向量空间了。

将三者的损失函数联合起来

img

img

其中,JSE表示结构嵌入,JCE表示属性嵌入。

4.4 实体对齐

到了一个向量空间,就可以求的对齐的实体了,找到余弦相似度最大的向量所表示的实体即视为对齐实体。

img

4.5 三元组的传递性规则

显式地包含关系传递信息可以增加了每个实体的属性和相关实体的数量,这有助于识别实体之间的相似性。

例子:给定三组⟨ dbp:Emporium Tower, :locatedIn, dbp:London ⟩和<dbp:London,:country, dbp:England>,我们可以推断:Emporium Tower商场大厦与dbp:England有关系(即“:locatedIn”)。事实上,这些信息可以用来丰富相关实体dbp:Emporium Tower。

对于单跳传递关系,给定传递三元组<h1, r1, t>和<t, r2, t2>,我们将r1 r2解释为头实体h1到尾实体t2的关系。因此,这些传递三元组之间的关系定义为:h1 + (r1·r2) 约等于t2。通过将关系向量r替换为r1 . r2,

4. 实验

实验采用的都是几个比较大的数据集,采用了三种数据集,它的数据规模如下图显示。

img

img

在本文的属性字符嵌入模型中,使用n-gram组合函数比使用LSTM或其他组合函数相比,获得更好的性能,这是因为在将属性字符串映射到它们的向量表示时,n-gram组合函数比其他函数更好地保持了字符串的相似性。

传递性规则进一步提高了模型的性能,因为它丰富了实体的属性,允许在对齐中使用更多的属性。

img

为了评估嵌入属性embedding对于实体对齐任务的贡献,作者进一步创建了基于规则的实体对齐模型,就移除了属性embedding,只使用了实体embedding之间的编辑距离来对齐实体。

我们可以看到对于DBP-LGD和DBP-GEO数据集,有些指标没有降低反而升高,有些指标降低了。作者说是因为这些数据库只包含位置实体,添加坐标相似性作为额外的度量。从表4中,以增强基于规则的模型的性能。

img

5. 总结

优点

  • 模型比较有新意,充分利用了attribute embedding。
  • 对于这里大量的属性三元组,无法和关系三元组一起用在TransE模型上进行学习,因为会造成实体和属性混乱不清而无法进行实体对齐。
  • 将大量的属性三元组充分利用起来,辅助将不同KG的实体构建到统一向量空间。

缺点:

  • 就是TransE模型中对结构embedding部分,对负样本的选择了随机选择实体替换三元组的实体。
  • 就可以利用上一篇文章中提出的模型
  • 3
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值