Python实现mapreduce程序

最新推荐文章于 2024-05-03 22:38:17 发布

liang_biao

最新推荐文章于 2024-05-03 22:38:17 发布

阅读量9.4k

点赞数 1

分类专栏： python 文章标签： python mapreduce

本文链接：https://blog.csdn.net/liang_biao/article/details/51909326

版权

本文详细介绍了如何使用Python语言实现MapReduce程序，包括Map和Reduce阶段的Python代码实现，以及如何在Hadoop上运行和测试这些脚本，以完成WordCount任务。

摘要由CSDN通过智能技术生成

一：目的

之前面试曾遇到面试官让用python代码实现mapreduce中最简单的demo WordCount,由于之前一直用java来写hadoop程序，突然转到python，是我产生了质疑，python与hadoop应该是不兼容的，即使写出来程序，到时候怎么运行？一头雾水最后导致面试失败。后来通过查阅资料，研究mapreduce的底层实现，发现尽管Hadoop框架是用Java编写的，但是为Hadoop编写的程序不必非要Java写，还可以使用其他语言开发，比如Python或C++(Haoop在0.14.1版本提供C++ API)，而mapreduce只是一种思想，跟语言无关。$HADOOP_HOME/src/examples/python/WordCount.py，你就可以明白我的意思了。
现在将会采用python语言实现wordcount并在hadoop上运行实现。

二：Python代码

map实现：

下面Python代码的一个“窍门”是我们将使用Hadoop流API(可以看下相关的维基条目)来帮助我们通过STDIN(标准输入)和STDOUT(标准输出)在Map和Reduce代码间传递数据。我们只是使用Python的sys.stdin读取输入数据和打印输出到sys.stdout。这就是我们需要做的，因为Hadoop流将处理好一切。将下面的代码保存在文件 /home/hduser/mapper.py 中。它将从STDIN读取数据，拆分为单词并输出一组映射单词和它们数量(中间值)的行到STDOUT。尽管这个Map脚本不会计算出单词出现次数的总和(中间值)。相反，它会立即输出( 1)元组的形式——即使某个特定的单词可能会在输入中出现多次。在我们的例子中，我们让后续的Reduce做最终的总和计数。当然，你可以按照你的想法在你自己的脚本中修改这段代码&#x

最低0.47元/天解锁文章

liang_biao

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
Python实现mapreduce程序

一：目的之前面试曾遇到面试官让用python代码实现mapreduce中最简单的demo WordCount,由于之前一直用java来写hadoop程序，突然转到python，是我产生了质疑，python与hadoop应该是不兼容的，即使写出来程序，到时候怎么运行？一头雾水最后导致面试失败。后来通过查阅资料，研究mapreduce的底层实现，发现尽管Hadoop框架是用Java编写的，但是为H
复制链接

扫一扫

专栏目录