Hadoop 分布式计算框架(MapReduce)。
MapReduce设计理念:
- 分布式计算
- 移动计算,而不是移动数据
MapReduce计算框架
步骤1:split
split切分Block,得到很多数据片段例如图中的split0, split1, split2。
步骤2:map
有多少个片段,就有多少个map,map是一个Java线程。
线程为硬件和对象。
数据按照键值对的形式传给map。
map执行完毕,输出是键值对格式。
步骤3:shuffle
步骤4:reduce
reduce线程
reduce task
在一个MapReduce任务中,默认情况下Reduce task只有一个。
步骤5: