概述
Hadoop 计算的部分框架.
步骤由
Map,Shuffle,Reduce
三部分组成
例子
统计每个单词出现的次数
Map阶段
是计算框架.运行在每个节点上
在每个节点统计自己存储哪部分单词的出现次数
结构
1. MRAppMaster 负责整个程序的过程调度以及状态协调
2. MapTask 负责map整个阶段的数据处理流程
3. ReduceTask 负责 reduce 阶段的数据处理流程
编程规范
Map阶段
1. 将文件中的单词 分为 KV对.
2. 自定义Map逻辑,将 第一步的KV对进行转换
Shuffle阶段
可以对 Map阶段的KV进行
1. 分区
2. 排序
3. 规约
4. 分组