python写hadoop的MapReduce（以数据按要求合并、重排为例）

最新推荐文章于 2024-08-19 10:51:43 发布

chutongz

最新推荐文章于 2024-08-19 10:51:43 发布

阅读量2.7k

点赞数

分类专栏：原创文章标签： mapreduce hadoop python 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41864878/article/details/91473360

版权

本文通过实例介绍了使用Python编写Hadoop MapReduce程序，以数据按需求合并和重排为例，详细讲解了mapper.py、reducer.py的实现过程，并涉及到条件合并内容的处理以及中文字符的处理技巧，包括数据预处理、groupby和itemgetter的运用，以及处理中文字符的注意事项。

摘要由CSDN通过智能技术生成

现在已有的很多博客demo都是以wordcount为例，众所周知这是一个非常简单的功能，但凡遇到一些高阶一点的操作我都会大脑一片空白，今天正好有相关的需求，就来学习了一下。
http://www.zhangdongshengtech.com/article-detials/236
上面的链接是记录频次的demo，写的非常的好，相信各位看了它就会了解mapreduce核心的写法

目录

Intro：wordcount

说在前面：mapreduce程序的调试可以单独分别运行mapper和reducer，直接在命令行输入你指定好的输入格式，就会打印出输出

mapper.py

输入文件的形式就是

word1
word2
word1
word3

# coding=utf-8
import sys
 
for line in sys.stdin:
	words = line.strip()
	if not word: continue
	print(word)

reducer.py

这里实现的就是一个简单的计数并把频次写到文件中的操作。
如果你只需要实现计数操作，那么只用修改mapper.py的print的值即可

# coding=utf-8
import sys

count = 0
key = ""
current_key = ""

for line in sys.stdin:
    line =  line.rstrip()
    if not line:
        sys.stderr.write("data is wrong")
        sys.exit(1)
    line = line.rstrip()
    items = line.split("\t")
    current_key = items[3]
    cur_timestamp = items[2]
    if current_key == key:

最低0.47元/天解锁文章

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

chutongz CSDN认证博客专家 CSDN认证企业博客

码龄7年

46: 原创

24万+: 周排名

42万+: 总排名

18万+: 访问

: 等级

2166: 积分

38: 粉丝

77: 获赞

94: 评论

255: 收藏

私信

关注

热门文章

分类专栏

最新评论

NYU-V2数据集预处理
倔强一撮毛: 莫非是（640，480）变为（480， 640）？我猜的我没这么用反正
NYU-V2数据集预处理
Tangyy_123: 您好，我想问一下您这个代码里为什么要进行img.transpose(Image.ROTATE_270)这步操作呢？如果我只是想得到原本的图，是不是可以不进行这一步？
python库pydot运行出现：FileNotFoundError:“dot.exe” not found in path
weixin_45142776: 请问这么修改之后跑出来的全都报错TypeError: argument of type 'NoneType' is not iterable是为什么啊 11 pyd = GraphUtils.to_pydot(Record['G']) ---> 12 tmp_png = pyd.create_png(f="png") 13 fp = io.BytesIO(tmp_png) 14 img = mpimg.imread(fp, format='png') d:\pycharm\python\lib\site-packages\pydot.py in new_method(f, prog, encoding) 1732 """Refer to docstring of method `create`.""" 1733 return self.create( -> 1734 format=f, prog=prog, encoding=encoding) 1735 name = 'create_{fmt}'.format(fmt=frmt) 1736 self.__setattr__(name, new_method) d:\pycharm\python\lib\site-packages\pydot.py in create(self, prog, format, encoding) 1928 program=prog, 1929 arguments=arguments, -> 1930 working_dir=tmp_dir, 1931 ) 1932 except OSError as e: d:\pycharm\python\lib\site-packages\pydot.py in call_graphviz(program, arguments, working_dir, **kwargs)
Ubuntu16.04搭建GTX1080+CUDA9.0+cuDNN7.0.5+Tensorflow1.6.0环境
GladyoUcaMe: “有一个关键是会让你选择是否安装Graphics Driver for Linux-x86_64：XXXX版本，这个地方必须选择no！否则会覆盖之前的驱动” 这个地方必须选择yes，覆盖之前的驱动，会有什么影响呢？
DRN: A Deep Reinforcement Learning Framework for News Recommendation理解
panbaoran913: 有类似的论文推荐吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。