Hadoop的MapReduce实例讲解—Python写的WordCount Demo

最新推荐文章于 2021-01-27 07:34:33 发布

weixin_41465064

最新推荐文章于 2021-01-27 07:34:33 发布

阅读量507

点赞数

分类专栏： Hadoop MapReduce wordcount 文章标签： Hadoop MapReduce wordcount Python

本文链接：https://blog.csdn.net/weixin_41465064/article/details/84145501

版权

    MapReduce是hadoop这只大象的核心，Hadoop 中，数据处理核心就是 MapReduce 程序设计模型。一个Map/Reduce 作业（job） 通常会把输入的数据集切分为若干独立的数据块，由 map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序， 然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。因此，我们的编程中心主要是 mapper阶段和reducer阶段。
    本文将通过 MapReduce中最为经典并简单的WordCount实例来展示MapReduce工作原理。官网和各类博客均有相关教程，内容大同小异，但在实际操作过程中还是会遇到一些未被提到的坑，最后发现能够顺利跑完这个MapReduce的简单实例还是真的不容易的，特地将操作过程复现一遍，供大家参考。

1.前提（环境）
搭建好Hadoop的分布式集群，并开启Hadoop相关进程，已经启动了必需的各项进程：namenode、datanode、resourcemanager、nodemanager、JobHistoryServer 等。并拥有Python2.7版本。Python3版本的话需要修改程序。
2.代码和数据集准备
1）编写Map代码
这里我们创建一个map.py脚本，从标准输入(stdin)读取数据，默认以空格分隔单词，然后按行输出单词机器词频到标准输出(stdout)，整个Map处理过程不会统计每个单词出现的总次数，而是直接输出“word 1”,以便作为Reduce的输入进行统计。