前言
Hadoop 本身是用 Java 开发的,所以之前的MapReduce代码小练都是由Java代码编写,但是通过Hadoop Streaming,我们可以使用任意语言来编写程序,让Hadoop 运行。
本文用Python语言实现了词频统计功能,最后通过Hadoop Streaming使其运行在Hadoop上。
Python写MapReduce代码
使用Python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。
我们唯一需要做的是利用Python的sys.stdin读取输入数据,并把我们的输出传送给sys.stdout。Hadoop流将会帮助我们处理别的任何事情。
Map阶段:mapper.py
| 1 2 3 4 5 6 7 |
|
Reducer阶段:reducer.py
| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 |

本文介绍了如何使用Python实现MapReduce的WordCount功能,通过Hadoop Streaming在Hadoop上运行Python代码。文章详细讲解了Map和Reduce阶段的Python脚本编写,以及如何在本地进行测试和在Hadoop集群上运行。同时讨论了Hadoop Streaming的优点和缺点,以及遇到的权限问题和解决方案。
最低0.47元/天 解锁文章
1878

被折叠的 条评论
为什么被折叠?



