面向多个知识图谱的实体对齐

论文笔记:

[1]徐有为,张宏军,程恺,廖湘琳,张紫萱,李雷.知识图谱嵌入研究综述[J/OL].计算机工程与应用:1-25[2022-02-20].http://kns.cnki.net/kcms/detail/11.2127.TP.20220128.1648.002.html.

实体对齐概述

概念

与实体消岐相反,实体对齐是针对“同义异名”的实体,即判断两个实体是否指向真实世界中的同一对象的过程。数据库领域中,对象共指的消解被称为记录链接、重复检测或记录匹配;在自然语言处理和信息检索领域,常称为共指消解,属于指代消解中的一类工作;在语义Web领域中,被称为引用调和。

目标

面向多个知识图谱的实体对齐模型将知识图谱的实体映射到低维向量空间,通过向量空间的几何结构捕捉实体的语义相关性,同时隐含的弱化不同知识图谱之间的异构性问题。

框架

请添加图片描述

步骤
  1. 输入两个知识图谱
  2. 收集两个输入知识图谱之间的种子实体对
  3. 将种子实体对与编码模块获得的实体嵌入并一起送入对齐模块-》用于发现新的实体对齐结果。

其中,编码模块与对齐模块的交互方式一般分为两种:

  1. 编码模块在两个独立的语义空间分别编码两个知识图谱,对齐模块借助种子实体对 学习两个语义空间之间的映射投影
  2. 对齐模块通过约束种子实体对的向量保持较高相似度,引导编码模块将两个知识图谱编码到同一语义空间

此外,为了克服种子实体对不足的问题,有些模型会在学习过程中迭代地增加新的对齐实体,也有模型通过使用额外的辅助信息来补充实体语义,加强结构嵌入,提升实体对齐性能。

实体对齐模型

根据编码模型捕获语言的层次,面向多个知识图谱的实体对齐模型可以分为基于三元组的模型、基于路径的模型和基于图的模型。

基于三元组的模型

基于三元组的模型只关注实体与实体之间一跳关系,从三元组的视角对实体和实体间的关系进行建模,认为不同事实三元组之间相互独立

方法
  • MTransE:最早提出用嵌入方法解决实体对齐任务的模型
    • 采用TransE作为编码模块,将每个知识图谱的实体和关系分别编码在相互独立的嵌入空间中,并为种子实体对中实体的嵌入向量提供转换函数,同时保留了单知识图谱嵌入的功能。
  • BootEA
    • 在MTransE基础上,提供了“参数交换”策略,通过相互交换已对齐实体对的实体,扩充有效事实三元组。
  • OTEA
    • 同样采用TransE实现实体嵌入,OTEA认为在实体级别定义的对齐损失中能服务于已标记实体而不能匹配整个图像。因此从实体级损失和组级损失两个维度进行双重优化。
  • TransEdge
    • TransEdge的改进主要在于编码模块,不同于上述方法(以实体为中心完成嵌入),TransEdge以边为中心。

基于路径的模型

对于基于三元组的模型而言,单跳信息难以实现实体之间的语义传播,只能获取实体片面的局部语义信息,因此,基于路径的模型着眼于挖掘实体之间的关系路径,并捕获实体之间的长依赖关系,其中关系路径是一组首尾相连的关系三元组

  • IPTransE

    • 与MTransE模型类似,同样在相互独立的编码空间分别表示两个知识图谱的实体。

      不同的是,为了捕获知识图谱中的关系路径,IPTransE使用PTransE 而不是TransE作为编码模块,通过推断直接关系和多跳路径之间的等价性来建模关系路径。

  • RSNs

    • 利用循环跳跃网络捕捉实体的长期关系依赖。知识图谱的关系路径通过有偏随机抽样产生,与MTransE只着眼于单个知识图谱内部的关系路径不同,RSNs还考虑了跨知识图谱的关系路径。在抽样过程中,为单知识图谱路径抽样设置了深度优先策略,为跨知识图谱路径抽样设置了同图搜索偏好,既避免了在同图内循环重复,也避免了在种子实体对之间来回走动。
  • DAT

    • DAT使用名称编码模块和结构编码模块共同表示实体信息,并采用RSNs作为结构编码模块,采用级联幂平均嵌入方法作为名称编码模块;实体的相似度定义为结构相似度和名称相似度的加权和

基于图的模型

基于图的模型同样认为知识图谱钟的单跳信息只能获取实体片面的语义,与基于路径的模型不同,它采用了一种邻域发现的视角,通常使用图神经网络作为编码器来捕获子图结构。

其中,图神经网络的本质是根据消息传递规则将来自邻域的信息聚集到目标节点,让具有相似邻域的实体在嵌入空间中彼此靠近,在捕捉图的全局或局部结构信息方面表现优异。

  • GCN-Align
    • 第一个提出用图神经网络完成实体对齐任务的模型
    • 该模型利用两个图卷积网络GCN分别处理两个待对齐的知识图谱,两个GCN通过共享权重矩阵将不同知识图谱的实体嵌入到统一的向量空间中,借助实体之间的结构来传播对齐关系。
  • NAEA
    • 在编码模块融合知识图谱的关系级和邻域级信息来表示实体,关系级和邻域级信息分别通过 TransE 和图注意力网络 GAT 捕获。
  • RDGCN
    • 由于上面两种基于图的模型无法捕获知识图谱复杂关系信息,RDGCN利用关系感知对偶图卷积网络来充分利用关系信息。
  • AliNet
    • 来自不同知识图谱的对齐实体对可能具有非同构的邻域结构,这是对捕获实体之间邻域结构为核心的基于图的模型来说是一个巨大挑战。AliNet引入远邻居来扩展对其实体对邻域结构之间的重叠,以端到端的方式缓解邻域结构的非同构问题。
    • 首先利用GCN学习实体的一跳表示;针对实体的远邻居,采用了一种类似图注意力网络GAT的学习方式。
  • 其他基于图的模型
    • GMNN:将实体对齐任务表述为一个图匹配问题,并在引入主题实体图概念基础之上,使用 GAT 匹配两个主题实体图中的所有实体,得到图级别的匹配向量。
    • MuGNN:使用 AMIE+构建更密集的知识图谱,利用注意力机制对整个图形特征建模,从而将种子对齐信息传播到整个图形上。
    • AVR-GCN:在卷积过程中引入 TransE 模型的翻译特性,将实体的不同邻居加入对应的关系向量进行合并表示。
    • HGCN:使用 GCN 学习的实体嵌入来近似关系表达,并增加门机制来控制噪声在结构中的传播。
    • KECG:联合训练一个基于 GAT 的交叉图模型和一个基于 TransE 的知识嵌入模型来协调知识图谱之间的结构异质性问题。
    • HMAN:使用 GCN 和全连接网络来分别编码知识图谱的结构特征、关系特征和属性特征,同时将预训练模型 BERT 纳入框架。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

路过的风666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值