Metric Similarity Joins Using MapReduce论文总结
Abstract
给定两个对象集 Q 和 O,度量相似性连接根据特定标准找到相似的对象对。
如今快速增长的数据量对传统的度量相似性连接方法提出了挑战,因此需要一种分布式方法。在本文中,我们采用了一种流行的分布式框架,即 MapReduce,来支持可扩展的度量相似性连接。
为了确保负载平衡,我们提出了两种基于采样的分区方法。
- 一种利用枢轴和空间填充曲线映射将数据聚集到一维空间中,然后选择高质量的质心来实现等大小的分区。
- 另一个使用 KD-tree 分区技术在数据透视映射后平均划分数据。
1 INTRODUCTION
考虑到度量空间可以支持广泛的数据类型和相似性度量,在各种实际应用中都需要度量相似性连接,包括数据清理[4]、数据挖掘[2]、[20]、数据集成[9] 、网页去重[17]、抄袭检测[18]、点击欺诈检测[25]、实体解析[36]等。这里,我们举两个有代表性的例子。
- 数据清理
在销售数据仓库中,由于输入错误和约定的差异,销售记录中的产品和客户名称可能与主产品目录和参考客户注册记录中的名称和客户名称不完全匹配,从而导致数据结果错误。可以使用度量相似性连接来消除此类错误。在这里,编辑距离可以用来衡量任何两个产品名称(或客户名称)之间的相似度。 - 数据挖掘
度量相似性连接可以用作大量数据挖掘任务(如聚类 [2]、[20])的基本构建块。例如,许多聚类算法(例如,C2P、k-means)可以通过作为第一步执行度量相似性连接来改进,以降低二次成本。
我们致力于使用 MapReduce 开发更有效和可扩展的度量相似性连接方法。
为了使用 MapReduce 支持高效且可扩展的度量相似性连接,必须解决两个挑战。
第一个<

本文探讨了使用MapReduce处理大规模数据的度量相似性连接问题,提出了两种基于采样的分区方法——聚类和KD-tree,以实现负载平衡。通过多种度量修剪技术减少了距离计算,提升了效率。实验表明,这种方法在效率和可扩展性上优于现有算法。
最低0.47元/天 解锁文章
2728

被折叠的 条评论
为什么被折叠?



