前言
Hadoop 本身是用 Java 开发的,所以之前的MapReduce代码小练都是由Java代码编写,但是通过Hadoop Streaming,我们可以使用任意语言来编写程序,让Hadoop 运行。
本文用Python语言实现了词频统计功能,最后通过Hadoop Streaming使其运行在Hadoop上。
Python写MapReduce代码
使用Python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。
我们唯一需要做的是利用Python的sys.stdin读取输入数据,并把我们的输出传送给sys.stdout。Hadoop流将会帮助我们处理别的任何事情。
Map阶段:mapper.py
1 2 3 4 5 6 7 |
|
Reducer阶段:reducer.py
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 |