实体对齐简介

为什么要进行实体对齐?

不同的知识图谱,收集知识的侧重点不同,对于同一个实体,有知识图谱的可能侧重于其本身某个方面的描述,有的知识图谱可能侧重于描述实体与其它实体的关系。

比如,对于历史人物曹操的描述,在百度百科、互动百科、维基百科等不同的知识图谱中,描述有一些差别,曹操所属时代,百度百科为东汉,互动百科为东汉末年,维基百科为东汉末期;曹操的主要成就,百度百科为“实行屯田制,安抚流民消灭群雄,统一北方,奠定曹魏政权的基础,开创建安文学,提倡薄葬”,互动百科为“统一北方”,维基百科为“统一了东汉帝国核心地区”。

由此可以看出,不同的知识图谱对于同一个实体的描述,还是有一些差异。通过知识融合可以将不同知识图谱中的知识进行互补融合,形成全面、准确、完整的实体描述。知识融合过程中,主要涉及到的工作就是实体对齐。

实体对齐的目标是什么?

   实体对齐的主要目的是判断两个或者多个不同信息来源的实体是否为指向真实世界中同一个对象。另外,如果找到多个实体表征同一个对象,则需要在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。

   举个简单的例子,如图1中的“长城”一词,在不同的来源中指向现实意义中的同一对象,因此,在实体对齐的过程中需要将不同来源的实体信息进行对齐融合,以避免“长城”在知识图谱中重复出现或实体的信息不完整等情况。

 

实体对齐的定义

首先用一个六元组来表示知识图谱:。其中分别为一组实例、字面量、关系和属性的集合;是一个三元组表示的宾语为实例的关系事实;是一个三元组表示的宾语为字面量的属性事实。基于知识图谱的定义,实体对齐可以形式化定义为:

其中,con为一个刻画实体相似性大小的评分,con越大则2个实体越可能是等价相似的类、属性或关系。实体对齐的目的可以抽象为找到两个图谱中的等价实体集合

实体对齐的基本流程

在实际应用中,实体对齐的基本流程如图所示。

中间过程主要包括数据预处理、分块、记录链接、负载均衡、结果评估五大模块[9]。

输入是知识图谱,输出则根据不同的模型有所差异,例如基于嵌入学习的实体对齐方法,除了输出实体对齐集外,还可以得到知识图谱嵌入层信息等。

 

 

  • 7
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值