--==============shuffle处理过程=============================
=>inputFormat
=>map
=>shuffle处理过程
* process
* map,output<key,value>
* memory
* spill,溢写到磁盘中,可能有很多文件
* 分区partition
* 排序sort
* 很多小文件,spill
* 合并merge
* 排序
生成大文件->放到map task运行机器的本地磁盘->压缩
* copy
reduce Task 回到运行map task的机器上,copy数据
* 合并,merge,排序sort
* 分组group
将相同key的value放在一起
* 过程总结
* 分区partition
* 排序sort
* copy :用户无法干涉
* 分组group
* 压缩:在配置文件中配置mapred-default.xml
* combiner:map task 端的reduce,局步汇总
=>reduce
=>outformat
--==============mapreduce 调优=============================
=》 Reduce Task number
=》 Map Task 输出压缩
=》 Shuffle Phase参数
=>inputFormat
=>map
=>shuffle处理过程
* process
* map,output<key,value>
* memory
* spill,溢写到磁盘中,可能有很多文件
* 分区partition
* 排序sort
* 很多小文件,spill
* 合并merge
* 排序
生成大文件->放到map task运行机器的本地磁盘->压缩
* copy
reduce Task 回到运行map task的机器上,copy数据
* 合并,merge,排序sort
* 分组group
将相同key的value放在一起
* 过程总结
* 分区partition
* 排序sort
* copy :用户无法干涉
* 分组group
* 压缩:在配置文件中配置mapred-default.xml
* combiner:map task 端的reduce,局步汇总
=>reduce
=>outformat
--==============mapreduce 调优=============================
=》 Reduce Task number
=》 Map Task 输出压缩
=》 Shuffle Phase参数