文献翻译与阅读《AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Languag》

《Auto Align:大型语言模型支持的全自动有效的知识图谱对齐》

论文原文pdf下载地址:https://arxiv.org/pdf/2307.11772.pdf

目录

摘要

1 引言

2 准备

2.1 基于翻译的嵌入方法

3 提出的方法


摘要

知识图谱( knowledge graph,KG )之间的实体对齐任务旨在从两个不同的KG中识别出每一对表示同一实体的实体。许多基于机器学习的方法已经被提出来用于这项任务。然而,据我们所知,现有的方法都需要手工制作种子对齐,这些种子对齐是昂贵的。在本文中,我们提出了第一个全自动比对方法AutoAlign,它不需要任何手工设计的种子比对。具体来说,对于谓词嵌入,Auto Align借助大型语言模型构建一个谓词-邻近图以自动捕捉两个KG之间谓词的相似性。对于实体嵌入,Auto Align首先使用Trans E独立计算每个KG的实体嵌入,然后通过计算实体之间基于属性的相似度将两个KG的实体嵌入转换到同一个向量空间。因此,谓词对齐和实体对齐都可以在不需要人工构造种子对齐的情况下完成。Auto Align不仅全自动,而且效率高。使用真实世界的KGs进行的实验表明,Auto Align比现有方法显著提高了实体对齐的性能。

1 引言

        以知识图谱( Knowledge Graphs,KGs )形式存在的知识库已经被用于许多应用中,包括问答系统[ 1 ]、对话系统[ 2 ]和推荐系统[ 3 ]。许多KG都是为了特定的目的而单独创建的。同一真实世界的实体在不同的知识图谱中可能以不同的形式存在。例如,德国的一个名为克罗姆斯多夫的村庄是一个真实世界的实体,它存在于两个不同的KG中,LinkedGeoData [ 4 ]和DBpedia [ 5 ]。该实体在LinkedGeoData中以lgd:240111203的形式表示,而在DBpedia中以dbp:克罗姆斯多夫的形式表示。通常,这些知识图谱在每个知识图谱包含的实体数量、与每个实体相关的信息类型等方面是相辅相成的。因此我们可以将两个KG合并为一个具有更多实体和与每个实体相关的更丰富信息的KG。为了合并两个KG,一个核心任务是实体对齐,即从两个KG中识别出对应于同一真实世界实体的每一对实体。现有的方法需要大量的人工工作(例如,手工制作的种子对齐),并且对齐的性能较低。

        在本文中,我们提出了一种新的方法来解决这个问题,该方法是全自动且有效的(也就是说,对齐结果具有很高的准确性)。我们用一个如表1所示的例子来详细说明实体对齐问题。通常,知识图谱中的知识或真实世界的事实以三元组的形式存储,而三元组在形式上由三个元素组成<头,谓,尾>,其中头表示一个实体尾表示另一个实体或头实体的字面(属性值)。在这里,如果尾是实体,则称三元组为关系三元组,谓词为关系谓词;如果尾是字面的,则称三元组为属性三元组,谓词为属性谓词。表1给出了两个KG的两个三元组子集的例子,用G1和G2(我们使用前缀lgd :和dbp :来简化原始拼写)表示。这两个子集中的头部实体指的是同一个实体Kromsdorf,尽管它们的形式不同,lgd:240111203和dbp:Kromsdorf。我们的目的是识别这些实体,并给它们一个统一的ID,使得这两个KG可以通过它们合并在一起。表1中,GM表示实体对齐的合并KG,其中lgd:240111203作为实体Kromsdorf的统一ID,该实体Kromsdorf有一组属性,是两个KG属性集合的并集。

        正如上面的例子所说明的,要对齐实体,还需要有对应的谓词对齐( e.g . , lgd : is _ in和dbp : localization _ in)。知识图谱对齐的任务是在两个知识图谱之间同时进行实体对齐和谓词对齐最近的KG对齐方法主要基于表示学习

 图1展示了谓词对齐和实体对齐这两个关键组件:

( i )两个KG中表示相同关系的谓词的嵌入在对齐向量空间中应该具有相似的嵌入,例如lgd:is _ in和dbp:location _ in应该具有相近的嵌入;

( ii )如果来自G1的实体eg1与来自G2的实体eg2对应相同的现实世界实体,那么eg1在对齐中应该具有与eg2相似的嵌入。

KG嵌入主要有两种范式,综合研究见[ 6 ]。

  • 基于翻译的方法:分别为每个KG学习一个嵌入空间然后学习一个转移矩阵将嵌入空间从一个KG映射到另一个KG。该映射依赖于大量的种子对齐(即,从两个KG中手工构造的一组对齐三元组)来计算转移矩阵
  • 基于GNN的方法通过图结构聚合来自实体邻域的信息来计算实体嵌入。然后,他们通过手工制作的种子对齐对齐两个KG的空间,这类似于基于翻译的方法。

现有的所有研究都只关注实体对齐,而对于谓词对齐,它们还依赖于手工设计的种子。且这两种范式的现有方法都依赖于人工设计的种子对齐

依靠人工创建的种子比对有显著的缺点

  1. 人工创建的种子需要仔细的人工监护和通常的领域专家,这是很昂贵的。对于大型数据集,需要大量的手工对齐,这是令人望而却步的
  2. 手工创建的种子可移植性差。对于每一个新的比对任务,我们都需要重新手动创建种子。
  3. 不同的注释器有不同的偏差,人工生成的种子容易出错,导致人工生成的种子质量参差不齐,从而影响比对结果的质量。

为了解决上述问题,我们提出了一种新颖的KG对齐方法,该方法不仅能够全自动地对齐(也就是说,不涉及任何手动种子对齐),而且能够更准确地对齐实体和谓词(也就是说,更有效)。我们将我们的方法命名为Auto Align,它是一种无需人工标注种子比对的自动KG比对方法。

对于谓词对齐,Auto Align通过学习实体类型的关注度,构建一个谓词-邻近图来自动捕捉跨两个KG的谓词之间的相似性。利用最近的大型语言模型(如ChatGPT和Claude)对齐两个KG的实体类型,实现了谓词-邻近-图的自动构建。

对于实体对齐,Auto Align使用Trans E独立计算每个KG的实体嵌入,然后根据实体的属性计算实体之间的相似度,将两个KG的实体嵌入转换到同一个向量空间。

上述谓词对齐和实体对齐的学习过程联合进行,得到最终对齐的KG

        谓词-邻近图来近似计算谓词嵌入,既包括关系谓词,也包括属性谓词,其中每个谓词都是一个顶点,表示实体类型或文字类型(而不是实体或文字)之间的关系。我们通过将KG三元组的头实体和尾实体替换为它们相应的类型来创建这样的图,这些类型在知识图谱中提供为rdfs:类型关系。例如,我们将三元组〈dbp:Kromsdorf, dbp:located_in, dbp:Germany〉 和 〈lgd:240111203, lgd:is_in, lgd:51477〉替换为三元组〈village, dbp:located_in, country〉和〈village, lgd:is_in,country〉。

利用谓词邻近图,AutoAlign可以从两个表示相同关系的KG中学习谓词之间的相似性例如谓词dbp:location _ in和lgd:is _ in。

通过一个谓词-邻近图来捕捉不同KG中的谓词相似性存在一些挑战

  • 每个实体往往具有多个类型,这使得通过实体类型直接对齐谓词变得困难。例如,在一个KG中,实体德国可能有多个实体类型{事物,地点,位置,国家}。
  • 不同的KG可能对应不同的实体类型集合。例如,在另一个KG中,实体德国可能具有实体类型{地点,国家}。因此,在谓词邻近图中,头部实体和尾部实体可能被多个实体类型所替代。

为了解决上述挑战,我们提出了两种算法来聚合一个实体的多种类型,并通过伪类型嵌入突出最具特色的实体类型(例如,对国家的关注多于对物的关注),这是一种根据重要性聚合多个实体类型信息得到的表示。这种近似谓词算法提供了一种自动对齐两个KG之间的谓词的方法,不仅可以补充潜在类型信息,而且可以通过进一步的联合学习来优化,以获得更好的谓词嵌入。

为了实现实体对齐,我们利用属性三元组并提出属性特征嵌入捕获属性之间的相似性;具有相似属性的实体也应该是相似的。

我们的工作之前,有一项研究提出了属性的嵌入[ 13 ]。但是,它仅使用属性类型进行计算嵌入,丢失了属性的所有内容信息,在捕捉属性( dis )相似度方面效果不佳。

我们首次提出了基于属性的文本内容的属性嵌入[ 14 ]。捕获两个KG的属性相似度,两个KG中实体之间的属性相似度有助于属性嵌入为两个KG产生一个统一的嵌入空间。这使得我们可以使用属性嵌入将两个KG的实体嵌入转移到同一个向量空间中,从而使实体嵌入能够捕获来自两个KG的实体之间的相似性。

通过以上两个部分,我们实现了第一种全自动的KG对准方法。

本文的贡献如下:

C1:我们提出了Auto Align,一种全自动的KG对齐方法,在不需要(谓词和实体种子都不对齐)的种子对齐的情况下对齐两个KG。具体来说,我们提出了自动谓词对齐算法、自动实体对齐算法以及一种对实体、属性和谓词嵌入进行联合学习的方案。

C2:我们首次提出了基于属性的文本内容的属性嵌入,实现了自动的实体对齐。

C3:我们提出了一个自动谓词对齐算法,该算法由两个技术实现:( i )我们使用一个由大型语言模型驱动的谓词-邻近图来捕获谓词作为实体类型的关系,( ii )我们使用伪类型嵌入来聚合邻近图中的多个实体类型,作为谓词的向量表示。

C4:我们进行了广泛的实验研究,表明我们的方法在全自动的同时也是高效的。与现有方法都依赖于人工设计的种子相比,Auto Align在hits @ 10上比最好的基线性能提升了10.65 %。

本文是我们前期会议论文[ 14 ]的扩展版本。在这里,我们给出了属性特征嵌入( C2 )的基本思想。然而,前文[ 14 ]中的方法需要人工构造谓词对齐。具体来说,它使用编辑距离来计算谓词之间的相似度分数,并且需要手动检查来去除误报。在这一期刊延伸中,我们做出了实质性的新贡献。

首先,我们提出了新的算法来对齐没有种子对齐的谓词,包括利用最新的大型语言模型( C3 )。

其次,我们提出了一种方案,将所有这些组件放在一起,并进行实体、属性和谓词嵌入的联合学习,实现了一种全自动的KG对齐方法( C1 )。

第三,我们进行了更全面的实验研究,与更多的基线(如基于GNN的基线)相比,使用了更近期的基准,具有更真实和更大的数据集( C4 )。

给定两个知识图谱G1和G2,实体对齐的任务是找到每一对〈h1,h2,其中h1∈G1,h2∈G2,h1和h2表示同一个现实世界实体。我们使用一种基于嵌入的方法,为三元组的每个元素分配一个连续的表示,其形式为〈h,p,t ?和〈h,p,v ?,其中黑体字母表示相应元素的向量表示。

2 准备

任务定义:

2.1 基于翻译的嵌入方法

给定一个关系三元组<h,p,t>,一种基于平移的嵌入方法,如Trans E [ 22 ],认为尾部实体t的嵌入应该接近头部实体h的嵌入加上关系p的嵌入,即h + p≈t。这样的嵌入方法旨在保留实体的结构信息,即知识图谱中共享相似邻居结构的实体在嵌入空间中应该具有相似的表示。我们将对结构信息的建模称为结构嵌入,建模应保持h + p≈t的平移性质。为了学习结构嵌入,TransE最小化一个基于边际目标函数JSE:

这里,∥x∥2是向量x的L2 -范数,γ是边超参数,Tr是有效关系三元组的集合,T′r是破坏关系三元组( E是G中的实体集合)的集合.损坏的三元组被用作负样本,通过将Tr中有效三元组的头部或尾部实体替换为随机实体来创建。

        结构嵌入的优势推动了基于结构嵌入的实体对齐的进一步研究。然而,直接使用结构嵌入进行实体对齐具有局限性在不同的KG上计算的实体嵌入可能落在不同的空间而相似性不能直接计算现有的方法通过计算一个转移矩阵将不同KG的嵌入空间映射到同一空间来解决这一局限性,如前所述。然而,这些方法需要从不同的KGs中手动收集对齐实体的种子集来计算转移矩阵,这种方法不具有可扩展性,并且容易受到手动构造的种子对齐实体的质量的影响。接下来,我们详细介绍了我们解决这些限制的方法。

3 提出的方法

创作不易,您的鼓励是我创作做大的动力!!!点个关注再走呗~ 

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值