知识融合:一文看懂LIMES理论基础

关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】

文章链接:https://mp.weixin.qq.com/s/Ie2nt0zOi2VK97x4jXYUwA

 

《 LIMES -- A Time-Efficient Approach for Large-Scale Link Discovery on the Web of Data 》

图片

LIMES是一个基于度量空间的实体匹配发现框架,适用于大规模数据链接发现,编程语言是java。可以通过配置文件以及图形用户界面轻松配置,LIMES可以作为独立工具下载,用于执行链接发现或作为Java库。

 

官网链接:http://openkg.cn/tool/limes

论文链接:https://www.ijcai.org/Proceedings/11/Papers/385.pdf

使用方法:https://mp.weixin.qq.com/s/h-39Cuhubzg6X9ynC1phXA

 

原理介绍

通过利用度量空间的三角不等式特征来过滤大量不满足映射条件的实例对,从而减少比较次数,使链接发现更高效。

  • 整体框架图

    图片

  • LIMES核心原理

    • 对空间A上任意三个点x,y,z和度量空间m,有如下不等式:m(x,y) <= m(x,y) + m(y,z)。

    • 将上式中的y称为样本点exampler。由上式易得:m(x,y) - m(y,z) > 0 —> m(x,z) > 0。

    • 上述意味着如果空间A中的x,y和样本点y之间的距离差大于阈值,意味着x,z之间的距离比阈值大,说明二者相似度低,在计算距离的过程中便不需要计算x,z之间的距离。

  • 整体流程

    给定源数据集S,目标数据集T,阈值θ。

    1、样本选取:从T中选取样本点E来代表T中的数据,过程中可的m(e,t);所谓样本点,也就是能代表距离空间的点。应该在距离空间上均匀分布,各个样本之间距离尽可能大。

    2、过滤:计算s∈S和e∈E之间的距离m(s,e),利用三角不等式进行过滤,过滤掉m(s,e)-m(e,t)>θ的实体对(s,t);

    3、相似度计算:计算剩余实体对(s,t)的距离m(s,t)。因为步骤2会过滤掉大量的数据,因此本步骤的比较次数会显著减小;

    4、序列化:存储为用户指定格式。存储3得到的结果(s,t,m(s,t))

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>