Hadoop经典案例Spark实现（二）——数据去重问题

最新推荐文章于 2024-08-28 21:57:23 发布

kwu_ganymede

最新推荐文章于 2024-08-28 21:57:23 发布

阅读量1.1w

点赞数 5

分类专栏： Spark Hadoop Hadoop经典案例Spark实现文章标签： spark hadoop 数据去重

本文链接：https://blog.csdn.net/kwu_ganymede/article/details/50474763

版权

本文主要探讨如何使用Spark在Hadoop上实现数据去重，通过MapReduce的原理介绍，然后详细讲解了Spark Scala版本的实现代码。

摘要由CSDN通过智能技术生成

Hadoop经典案例Spark实现（二）——数据去重问题

1、原始数据
1）file1：

2012-3-1 a
2012-3-2 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-7 c
2012-3-3 c

2）file2：

2012-3-1 b
2012-3-2 a
2012-3-3 b
2012-3-4 d
2012-3-5 a
2012-3-6 c
2012-3-7 d
2012-3-3 c

数据输出：

2012-3-1 a
2012-3-1 b
2012-3-2 a
2012-3-2 b
2012-3-3 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-6 c
2012-3-7 c
2012-3-7 d

3)、说明
数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。我们自然而然会想到将同一个数据的所有记录都交给一台reduce机器，
无论这个数据出现多少次，只要在最终结果中输出一次就可以了。具体就是reduce的输入应该以数据作为key，

而对value-list则没有要求。当reduce接收到一个<key，value-list>时就直接将key复制到输出的key中，并将value设置成空值。

2、MapReduce实现

代码编写
<

关注

专栏目录