文献翻译与阅读《AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Languag》-CSDN博客

本文提出了一种全自动的KG对齐方法AutoAlign，利用大型语言模型和TransE技术，无需人工种子对齐，有效提高实体对齐性能。方法包括谓词-邻近图和属性特征嵌入，实验显示性能优于现有依赖手工种子的基线。

《Auto Align：大型语言模型支持的全自动有效的知识图谱对齐》

论文原文pdf下载地址：https://arxiv.org/pdf/2307.11772.pdf

摘要

知识图谱( knowledge graph，KG )之间的实体对齐任务旨在从两个不同的KG中识别出每一对表示同一实体的实体。许多基于机器学习的方法已经被提出来用于这项任务。然而，据我们所知，现有的方法都需要手工制作种子对齐，这些种子对齐是昂贵的。在本文中，我们提出了第一个全自动比对方法AutoAlign，它不需要任何手工设计的种子比对。具体来说，对于谓词嵌入，Auto Align借助大型语言模型构建一个谓词-邻近图，以自动捕捉两个KG之间谓词的相似性。对于实体嵌入，Auto Align首先使用Trans E独立计算每个KG的实体嵌入，然后通过计算实体之间基于属性的相似度将两个KG的实体嵌入转换到同一个向量空间。因此，谓词对齐和实体对齐都可以在不需要人工构造种子对齐的情况下完成。Auto Align不仅全自动，而且效率高。使用真实世界的KGs进行的实验表明，Auto Align比现有方法显著提高了实体对齐的性能。

1 引言

以知识图谱( Knowledge Graphs，KGs )形式存在的知识库已经被用于许多应用中，包括问答系统[ 1 ]、对话系统[ 2 ]和推荐系统[ 3 ]。许多KG都是为了特定的目的而单独创建的。同一真实世界的实体在不同的知识图谱中可能以不同的形式存在。例如，德国的一个名为克罗姆斯多夫的村庄是一个真实世界的实体，它存在于两个不同的KG中，LinkedGeoData [ 4 ]和DBpedia [ 5 ]。该实体在LinkedGeoData中以lgd：240111203的形式表示，而在DBpedia中以dbp：克罗姆斯多夫的形式表示。通常，这些知识图谱在每个知识图谱包含的实体数量、与每个实体相关的信息类型等方面是相辅相成的。因此，我们可以将两个KG合并为一个具有更多实体和与每个实体相关的更丰富信息的KG。为了合并两个KG，一个核心任务是实体对齐，即从两个KG中识别出对应于同一真实世界实体的每一对实体。现有的方法需要大量的人工工作(例如,手工制作的种子对齐)，并且对齐的性能较低。

在本文中，我们提出了一种新的方法来解决这个问题，该方法是全自动且有效的(也就是说,对齐结果具有很高的准确性)。我们用一个如表1所示的例子来详细说明实体对齐问题。通常，知识图谱中的知识或真实世界的事实以三元组的形式存储，而三元组在形式上由三个元素组成<头，谓，尾>，其中头表示一个实体，尾表示另一个实体或头实体的字面(属性值)。在这里，如果尾是实体，则称三元组为关系三元组，谓词为关系谓词；如果尾是字面的，则称三元组为属性三元组，谓词为属性谓词。表1给出了两个KG的两个三元组子集的例子，用G1和G2(我们使用前缀lgd :和dbp :来简化原始拼写)表示。这两个子集中的头部实体指的是同一个实体Kromsdorf，尽管它们的形式不同，lgd：240111203和dbp：Kromsdorf。我们的目的是识别这些实体，并给它们一个统一的ID，使得这两个KG可以通过它们合并在一起。表1中，GM表示