Python初次实现MapReduce——WordCount

本文介绍了如何使用Python实现MapReduce的WordCount功能,通过Hadoop Streaming在Hadoop上运行Python代码。文章详细讲解了Map和Reduce阶段的Python脚本编写,以及如何在本地进行测试和在Hadoop集群上运行。同时讨论了Hadoop Streaming的优点和缺点,以及遇到的权限问题和解决方案。
摘要由CSDN通过智能技术生成

前言

Hadoop 本身是用 Java 开发的,所以之前的MapReduce代码小练都是由Java代码编写,但是通过Hadoop Streaming,我们可以使用任意语言来编写程序,让Hadoop 运行。

本文用Python语言实现了词频统计功能,最后通过Hadoop Streaming使其运行在Hadoop上。

Python写MapReduce代码

使用Python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。

我们唯一需要做的是利用Python的sys.stdin读取输入数据,并把我们的输出传送给sys.stdout。Hadoop流将会帮助我们处理别的任何事情。

Map阶段:mapper.py

1

2

3

4

5

6

7

#!/usr/bin/env python3

import sys

for line in sys.stdin:

    line = line.strip()

    words = line.split()

    for word in words:

        print("%s\t%s" % (word, 1))

Reducer阶段:reducer.py

1

2

3

4

5

6

7

8

9

10

11

12

13

14

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值