6 知识融合

最新推荐文章于 2022-04-30 22:12:37 发布

《一夜飘零》

最新推荐文章于 2022-04-30 22:12:37 发布

阅读量5.4k

点赞数

分类专栏：知识图谱知识图谱

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiaxinhong/article/details/82693967

版权

知识图谱同时被 2 个专栏收录

44 篇文章 1 订阅

订阅专栏

32 篇文章 9 订阅

订阅专栏

知识融合Konwledge Fusion

目标：融合各层面的知识

合并两个知识图谱(本体)，需要确认：

1、等价实例sameAs

2、等价类、子类subClassOf

3、等价属性、子属性subPropertyOf

同一实体来源于不同知识库，KG的构建经常需要融合多种不同来源的数据

实体对齐是知识图谱融合的主要工作

KG中可以复用其他KG中的标签

跨语言知识融合

知识在线融合

Google Konwledge Vault

主要挑战：数据质量的挑战/数据规模的挑战

知识融合竞赛：OAEI本体对齐竞赛

知识融合的基本技术流程

本体对齐+实体匹配

数据预处理->分块->负载均衡->记录链接->结果评估->结果输出

一、数据预处理：

语法正规化

数据正规化(缩进/转义符/正式名....)

二、记录链接：

1、属性相似度

1)编辑距离：

Levenshtein distance最小编辑距离

用最少的编辑操作将一个字符串转换成另一个

是典型的动态规划问题

D(i,j)=min[D(i-1,j)+1.D(i,j-1)+1,D(i-1,j-1)+1]

Edit Distance with affine gaps

Dice系数用于度量两个集合的相似性

Jaccard系数适合处理短文本的相似度

2)基于向量的相似度

TF-IDF评估某个字或某个词对一个文档的重要程度

2、实体相似度

1)聚合：加权平均/手动指定规则/分类器

2)聚类：

层次聚类(SL算法/CL算法/AL算法)

相关性聚类(最大留，最小割)

Canopy(分块)+K-means

桥梁：预连接实体对(训练数据)：联合知识嵌入，双向监督训练

三、分块：

Falcon-AO

基于hash函数的分块

常用hash函数：

first n-grams

n-grams

集合多个简单的hash函数

邻近分块

Canopy聚类

四、负载均衡

保证所有块中数量相当

五、结果评估

准确率、召回率、F值、运行时间

典型知识融合工具简介

本体对齐：Falcon-AO

四类匹配算法：V-Doc虚拟文档/GMO比如难题RDF图结构匹配/I-Sub编辑距离的字符串匹配/PBM分治的大本体匹配

实体匹配：Dedupe

指定谓词集合和相似度函数

训练Blocking：通过Red-Blue set cover 找到最优谓词集合来分块

实体匹配：Limes

基于度量空间的实体匹配发现框架

实体匹配：Silk

《一夜飘零》

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
6 知识融合

知识融合Konwledge Fusion目标：融合各层面的知识合并两个知识图谱(本体)，需要确认：1、等价实例sameAs2、等价类、子类subClassOf3、等价属性、子属性subPropertyOf...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。