hadoop mapreduce数据去重

最新推荐文章于 2024-05-11 19:12:00 发布

落涯

最新推荐文章于 2024-05-11 19:12:00 发布

阅读量1.8k

点赞数

分类专栏： hadoop 文章标签： Hadoop 数据去重

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/limiteeWALTWO/article/details/8896891

版权

假设我们有下面两个文件，需要把重复的数据去除。

file0

2012-3-1 a
2012-3-2 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-7 c
2012-3-3 c

file1

2012-3-1 b
2012-3-2 a
2012-3-3 b
2012-3-4 d
2012-3-5 a
2012-3-6 c
2012-3-7 d
2012-3-3 c

我们知道，map处理之后，相同的key的值会被聚合起来，交给一个reduce处理，所以，我们可以把输出的内容作为输出的key，reduce原样输出key就OK，mapreduce的代码如下：

// map将输入中的value复制到输出数据的key上，并直接输出
	public static class Map extends Mapper<Object, Text, Text, Text> {
		
		private static Text line = new Text();// 每行数据
		
		// 实现map函数
		public void map(Object key, Text value, Context context)
				throws IOException, InterruptedException {
			line = value;
			context.write(line, new Text(""));
		}
	}

	// reduce将输入中的key复制到输出数据的key上，并直接输出
	public sta

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
hadoop mapreduce数据去重

假设我们有下面两个文件，需要把重复的数据去除。file02012-3-1 a2012-3-2 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-7 c2012-3-3 cfile12012-3-1 b2012-3-2 a2012-3-3 b2012-3-4 d2012-3-5 a2012-3-6 c
复制链接

扫一扫

专栏目录

落涯 CSDN认证博客专家 CSDN认证企业博客

码龄13年

55: 原创

105万+: 周排名

62万+: 总排名

18万+: 访问

: 等级

2158: 积分

19: 粉丝

15: 获赞

12: 评论

37: 收藏

私信

关注

热门文章

分类专栏

nodejs C C++ 1篇
python与测试 6篇
python语言经验 4篇
ubuntu使用技巧 1篇
python与opengl 2篇
Java 7篇
hadoop 16篇
centos 3篇
spring 3篇
maven 3篇
mongodb 4篇
Java Server Faces 8篇
spring batch 5篇
database 1篇
SSH 2篇
redis 2篇
Spring JPA

最新评论

查看当前正在运行的python进程
lmw0320: 如果我写了个py代码，启动了多进程的操作，这样进程中就会有多个同名的进程（id不同），比如是python3 test,py，我该如何用另一个py代码干掉这个进程呢？--环境中可能也有其他的py进程，我不想干掉，只想干掉这个python3 test.py的进程。。
hadoop的namenode起不来，Directory /tmp/hadoop-hadoop/dfs/name is in an inconsistent state
>希雨<: 感谢大哥，解决了我的疑惑，只要在core-site里面加上 <description>A base for other temporary directories.</description>就行了！！
java orion ssh scp 使用案例
卖火柴的_小男孩: 你好在么我想和你交流一下ssh
hadoop的新旧api
liwan305: 需要继续努力啊，断档了一年了。
Centos下安装JAVA
magicretti: 好，有用

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。