1. 说明
前两篇分别介绍了Hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持C++,Python等程序的分布计算。下面以Python为例介绍如何使用Hadoop的MapReduce功能。
2. 工作过程
在原理部分介绍过,Hadoop分为两部分,一部分是存储,一部分是运算,而各个部分又可分为主控和局部实现。这里忽略细节,主要说明运算的主控部分是如何运作的。
从程序调用的角度看,程序员首先需要把待处理的文件复制到HDFS文件系统之中,然后调Hadoop提供的java程序执行分布计算,具体需要执行的python代码用参数的形式提供;最后在HDFS生成输出文件,程序员再将其拷回本地即可。
这里的分布计算主要指MapReduce,MapReduce框架将输入数据分割成数据块,传给Mapper,然后Map任务在各个服务器上以完全并行的方式处理,接着MapReduce框架对Map任务的输出进行排序,并将结果做为Reduce任务的输入,最后由Reduce任务输出最终的结果。请注意,在Map和Reduce中有个排序的过程,因为必须完成所有map后才能reduce,这也局限了MapReduce的工作场景。
MapReduce的核心数据是键值对,Mapper处理完数据输出的是键值对(如果不输出,则起到了过滤的作用),框架对键值对排序(后面在具体例子中介绍排序的原因),再输出给Reducer继续处理。Mapper的数量由输入文件的大小确定,Reducer的数量由程序员指定.
3. HDFS文