Python 进行 hadoop MapReduce操作

最新推荐文章于 2024-05-04 22:53:57 发布

As a layman

最新推荐文章于 2024-05-04 22:53:57 发布

阅读量265

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41634974/article/details/102948562

版权

本文介绍了如何使用Python在Linux环境下进行Hadoop MapReduce的WordCount实例，详细阐述了map.py和reduce.py的实现，并讲解了如何为hadoop-streaming-2.6.5.jar添加执行权限以及运行MapReduce任务。同时，讨论了Hadoop的常用配置，包括调整reduce数量、设置节点白名单和执行多任务结合操作。

摘要由CSDN通过智能技术生成

一般可以在linux下可以进行测试操作

cat inputfile | python mapper.py | sort | python reducer.py > outputfile

单词统计 WordCount

制作一个mapReduce操作需要一个map.py 和 reduce.py

map.py

import sys

for line in sys.stdin:
	line_words = line.strip().split(' ')
	for word in line_words:
		print '%s\t1'%(word.strip())

reduce.py

import sys

cur_word = None
sum = 0

for line in sys.stdin:
	word,count = line.strip().split('\t')
	try:
		count = int(count

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python 进行 hadoop MapReduce操作

单词统计 WordCount制作一个mapReduce操作需要一个map.py 和 reduce.pymap.pyimport sysfor line in sys.stdin: line_words = line.strip().split(' ') for word in line_words: print '%s\t1'%(word.strip())reduce.py...
复制链接

扫一扫

专栏目录

As a layman CSDN认证博客专家 CSDN认证企业博客

码龄6年

61: 原创

7万+: 周排名

73万+: 总排名

13万+: 访问

: 等级

1129: 积分

35: 粉丝

38: 获赞

6: 评论

285: 收藏

私信

关注

热门文章

分类专栏

数据分析 3篇
java 4篇
算法
机器学习 21篇
推荐系统 2篇
大数据 16篇
kafka 1篇
spark 6篇
storm 1篇
hbase 1篇
hive 3篇
网络基础 3篇
linux 3篇
正则 1篇
python 7篇
go 3篇
数据库 1篇

最新评论

数据分析基础
微风默默: 我也算不出43
Hadoop
程序员臻叔: 不错子！请问可以转载到公众号【程序员臻叔】吗？之前整理了BAT面试题，最近开始归纳基础知识，想把你的文章分享给更多人知道！
Hadoop
极乐丶: 深入浅出大数据:Hadoop的前世今生:http://www.jile1422.top/archives/143
数据分析基础
m0_46580835: 我带了，算的跟你的结果不一样
数据分析基础
As a layman 回复 m0_46580835: 带入结果就出来了。这个2是因为正太分布，保证0.95的概率，取1.96，直接取2就行

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。