similarity join(record linkage, merge/purge, deduplicate)总结

join的时候一般有如下的特点:

数据集较大,但是能够join的数据相对非常非常的少。



1. 为了提高join的效率一般有两种做法

   1.1 Cartesian product的时候用cost较小的function来判断其相似度不能达到阈值,从而避免用cost较大的相似度判断function

   1.2 在join操作之前,通过某种方法产生候选集,将一定不会相似的记录prune掉。在做prune算法设计的时候要注意:被prune掉的记录中不能含有正确的解,也就是不允许false positive。


2.


待续。。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值