python写mapreduce_用python写MapReduce函数——以WordCount为例

weixin_39758696

于 2020-12-13 03:18:19 发布

阅读量59

点赞数

文章标签： python写mapreduce

本文链接：https://blog.csdn.net/weixin_39758696/article/details/111417353

版权

使用

python

写

MapReduce

的

“

诀窍

”

是利用

Hadoop

流的

API

，通过

STDIN(

标准输入

)

、

STDOUT(

标准输出

)

在

Map

函数和

Reduce

函数之间传递

数据。

我们唯一需要做的是

利用

Python

的

sys.stdin

读取输入数据，并把我

们的输出传送给

sys.stdout

。

Hadoop

流将会帮助我们处理别的任何事情。

1.1 Map

阶段：

mapper.py

在这里，我们假设把文件保存到

hadoop-0.20.2/test/code/mapper.py

#!/usr/bin/env python

import sys

for line in sys.stdin:

line = line.strip()

words = line.split()

for word in words:

print "%s\t%s" % (word, 1)

文件从

STDIN

读取文件。把单词切开，并把单词和词频输出

STDOUT

。

Map

脚本不会计算单词的总数，

而是输出

。

在我们的例子中，

我们让随后

的

Reduce

阶段做统计工作。

为了是脚本可执行，增加

mapper.py

的可执行权限

chmod +x hadoop-0.20.2/test/code/mapper.py

1.2 Reduce

阶段：

reducer.py

在这里，我们假设把文件保存到

hadoop-0.20.2/test/code/reducer.py

#!/usr/bin/env python

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39758696

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python写mapreduce_用python写MapReduce函数——以WordCount为例

使用python写MapReduce的“诀窍”是利用Hadoop流的API，通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。我们唯一需要做的是利用Python的sys.stdin读取输入数据，并把我们的输出传送给sys.stdout。Hadoop流将会帮助我们处理别的任何事情。1.1Map阶段：mapper.py在这里，我们假设把文件保存到hado...
复制链接

扫一扫