6 知识融合

知识融合Konwledge Fusion

目标:融合各层面的知识

合并两个知识图谱(本体),需要确认:

1、等价实例sameAs

2、等价类、子类subClassOf

3、等价属性、子属性subPropertyOf

 

同一实体来源于不同知识库,KG的构建经常需要融合多种不同来源的数据

实体对齐是知识图谱融合的主要工作

KG中可以复用其他KG中的标签

跨语言知识融合

 

知识在线融合

Google Konwledge Vault

 

主要挑战:数据质量的挑战/数据规模的挑战

 

知识融合竞赛:OAEI本体对齐竞赛

 

知识融合的基本技术流程

本体对齐+实体匹配

数据预处理->分块->负载均衡->记录链接->结果评估->结果输出

 

一、数据预处理:

语法正规化

数据正规化(缩进/转义符/正式名....)

 

二、记录链接:

1、属性相似度

 

1)编辑距离:

 

Levenshtein distance最小编辑距离

用最少的编辑操作将一个字符串转换成另一个

是典型的动态规划问题

D(i,j)=min[D(i-1,j)+1.D(i,j-1)+1,D(i-1,j-1)+1]

 

Edit Distance with affine gaps

Dice系数用于度量两个集合的相似性

Jaccard系数适合处理短文本的相似度

 

2)基于向量的相似度

TF-IDF评估某个字或某个词对一个文档的重要程度

 

2、实体相似度

 

1)聚合:加权平均/手动指定规则/分类器

 

2)聚类:

层次聚类(SL算法/CL算法/AL算法)

相关性聚类(最大留,最小割)

Canopy(分块)+K-means

 

桥梁:预连接实体对(训练数据):联合知识嵌入,双向监督训练

 

三、分块:

 

Falcon-AO

 

基于hash函数的分块

常用hash函数:

first n-grams

n-grams

集合多个简单的hash函数

 

邻近分块

Canopy聚类

 

四、负载均衡

保证所有块中数量相当

 

五、结果评估

准确率、召回率、F值、运行时间

 

典型知识融合工具简介

 

本体对齐:Falcon-AO

四类匹配算法:V-Doc虚拟文档/GMO比如难题RDF图结构匹配/I-Sub编辑距离的字符串匹配/PBM分治的大本体匹配

 

实体匹配:Dedupe

指定谓词集合和相似度函数

训练Blocking:通过Red-Blue set cover 找到最优谓词集合来分块

 

实体匹配:Limes

基于度量空间的实体匹配发现框架

 

实体匹配:Silk
 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值