1、MapReduce 运行流程
由上图可以看到MapReduce 执行下来主要包含这样几个步骤:
1) 首先对输入数据源进行切片
2) master 调度worker 执行map 任务
3) worker 读取输入源片段
4) worker 执行map 任务,将任务输出保存在本地
5) master 调度worker 执行reduce 任务,reduce worker 读取map 任务的输出文件
6) 执行reduce 任务,将任务输出保存到HDFS
2、WordCount运行流程详解
给定任意的HDFS 的输入目录,其内部数据为“f a c d e……”等用空格字符分隔的字符串,通过使用MapReduce 计算框架来统计以空格分隔的每个单词出现的频率,输出结果如<a,10>,<b,20>,<c,2>形式的结果到HDFS 目录中。
MapReduce 将作业的整个运行过程分为两个阶段:Map 阶段Reduce 阶段。
MapReduce过程:
1)输入数据格式解析
首先InputFormat类从hdf