Metric Similarity Joins Using MapReduce论文总结

最新推荐文章于 2025-11-07 16:54:54 发布

原创

最新推荐文章于 2025-11-07 16:54:54 发布 · 745 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#mapreduce #数据挖掘 #聚类

本文探讨了使用MapReduce处理大规模数据的度量相似性连接问题，提出了两种基于采样的分区方法——聚类和KD-tree，以实现负载平衡。通过多种度量修剪技术减少了距离计算，提升了效率。实验表明，这种方法在效率和可扩展性上优于现有算法。

Metric Similarity Joins Using MapReduce论文总结

Abstract
1 INTRODUCTION
2 RELATED WORK
- 2.1 MapReduce
- 2.2 Metric Similarity Joins
3 PROBLEM FORMULATION
4 METRIC SIMILARITY JOIN FRAMEWORK
5 CLUSTERING BASED PARTITION METHOD
5.1 Centroid Selection
6 KD-TREE BASED PARTITION METHOD
7 THE REDUCE PHASE
8 EXPERIMENTS
9 CONCLUSION

Abstract

给定两个对象集 Q 和 O，度量相似性连接根据特定标准找到相似的对象对。
如今快速增长的数据量对传统的度量相似性连接方法提出了挑战，因此需要一种分布式方法。在本文中，我们采用了一种流行的分布式框架，即 MapReduce，来支持可扩展的度量相似性连接。
为了确保负载平衡，我们提出了两种基于采样的分区方法。

一种利用枢轴和空间填充曲线映射将数据聚集到一维空间中，然后选择高质量的质心来实现等大小的分区。
另一个使用 KD-tree 分区技术在数据透视映射后平均划分数据。

1 INTRODUCTION

考虑到度量空间可以支持广泛的数据类型和相似性度量，在各种实际应用中都需要度量相似性连接，包括数据清理[4]、数据挖掘[2]、[20]、数据集成[9] 、网页去重[17]、抄袭检测[18]、点击欺诈检测[25]、实体解析[36]等。这里，我们举两个有代表性的例子。

数据清理
在销售数据仓库中，由于输入错误和约定的差异，销售记录中的产品和客户名称可能与主产品目录和参考客户注册记录中的名称和客户名称不完全匹配，从而导致数据结果错误。可以使用度量相似性连接来消除此类错误。在这里，编辑距离可以用来衡量任何两个产品名称（或客户名称）之间的相似度。
数据挖掘
度量相似性连接可以用作大量数据挖掘任务（如聚类 [2]、[20]）的基本构建块。例如，许多聚类算法（例如，C2P、k-means）可以通过作为第一步执行度量相似性连接来改进，以降低二次成本。

我们致力于使用 MapReduce 开发更有效和可扩展的度量相似性连接方法。

为了使用 MapReduce 支持高效且可扩展的度量相似性连接，必须解决两个挑战。
第一个<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。