Map的详解:
1:每个大文件会切成N个小文件或切片
2:默认按照block大小进行切分
3:每个小文件或切片对应一个maptask
4:部分文件压缩格式无法Split,所以上传文件的时候请注意压缩包类型
Combiner的应用:
由以上两个图片我们可以看出有没有Combiner对WordCount的影响,而Combiner是map端的小范围reduce操作,用好了事半功倍,用不好影响结果的准确性,所以我们应该谨慎使用。
Partitioner的应用:
默认HashPartitioner (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks
针对特定需求可自定义partitioner,同一Partitioner数据必然shuffle到同一Reduce
partitioner的个数与reduce task个数保持一致
Map总结:
split:用于切片
Combiner:----map端的redue
Partitioner----map端的数据分区
--------------------------------------------------------------------------------------------------加粗样式
Reduce详解:
1:Reduce的过程:
Reduce个数决定最终输出文件的个数
Reduce个数越多越好吗?
默认Reduce个数1
合理的Reduce个数
reduce个数 = InputFileSize / bytes per reducer
set mapred.reduce.tasks = xxx
2:Reduce的输出
Inputformat:FileInputFormat(default)
outputformat: FileOutputFormat(default)
--------------------------------------------------------------------------------------------------------------------------加粗样式
Shuffle的详解
1:Map-shuffle
① map不断产生数据到Memory
② memory buffer spill到磁盘
缓冲区大小达到阀值时,默认是100*0.8(80M),开始启动溢写线程,内存到磁盘,同时map输出的结果继续由另一个线程往剩余的20M里写,两个线程相互独立。spill的过程中做Sort和Combine,按partition和key依次排序
③ 多个小文件Merge成一个大文件
Merge的过程中对数据做Sort和Combine操作,Merge后的文件包含partition信息,便于shuffle
④ 本Map task执行完成
2:Reduce-shuffle
① MapTask完成任务数超过总数的5%后,开始调度执行ReduceTask任务
② 各Reduce Task 并行拉取数据
每个ReduceTask默认启动5个copy线程到已完成的MapTask任务节点上分别copy一份属于自己的数据(使用Http的方式)
③ 保存数据先到memory buffer 再merge到磁盘
先buffer后磁盘,执行combiner(如果有)
④ 启动磁盘到磁盘的Merge生成最终的文件
⑤ shuffle过程结束。之后运行reduce方法,执行相应的业务逻辑
--------------------------------------------------------------------------------------------------------------------加粗样式
以上就是我自己对Map,Reduce,Shuffle的理解。