菜鸟进阶(Map,Reduce,Shuffle详解)

最新推荐文章于 2022-06-18 12:39:54 发布

傷訫

最新推荐文章于 2022-06-18 12:39:54 发布

阅读量408

点赞数

本文链接：https://blog.csdn.net/doubimen/article/details/92651370

版权

Map的详解:
在这里插入图片描述
1:每个大文件会切成N个小文件或切片
2:默认按照block大小进行切分
3:每个小文件或切片对应一个maptask
4:部分文件压缩格式无法Split,所以上传文件的时候请注意压缩包类型
Combiner的应用：

由以上两个图片我们可以看出有没有Combiner对WordCount的影响，而Combiner是map端的小范围reduce操作，用好了事半功倍，用不好影响结果的准确性，所以我们应该谨慎使用。

Partitioner的应用：
默认HashPartitioner (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks
针对特定需求可自定义partitioner，同一Partitioner数据必然shuffle到同一Reduce
partitioner的个数与reduce task个数保持一致

Map总结:
split:用于切片
Combiner:----map端的redue
Partitioner----map端的数据分区

--------------------------------------------------------------------------------------------------加粗样式

Reduce详解：
1：Reduce的过程：
在这里插入图片描述
Reduce个数决定最终输出文件的个数
Reduce个数越多越好吗？
默认Reduce个数1
合理的Reduce个数
reduce个数 = InputFileSize / bytes per reducer
set mapred.reduce.tasks = xxx

2：Reduce的输出
在这里插入图片描述
Inputformat：FileInputFormat（default）
outputformat： FileOutputFormat（default）

--------------------------------------------------------------------------------------------------------------------------加粗样式

Shuffle的详解
1：Map-shuffle
在这里插入图片描述
① map不断产生数据到Memory
② memory buffer spill到磁盘
缓冲区大小达到阀值时，默认是100*0.8（80M）,开始启动溢写线程，内存到磁盘，同时map输出的结果继续由另一个线程往剩余的20M里写，两个线程相互独立。spill的过程中做Sort和Combine，按partition和key依次排序
③ 多个小文件Merge成一个大文件
Merge的过程中对数据做Sort和Combine操作，Merge后的文件包含partition信息，便于shuffle
④ 本Map task执行完成

2:Reduce-shuffle
在这里插入图片描述
① MapTask完成任务数超过总数的5%后，开始调度执行ReduceTask任务
② 各Reduce Task 并行拉取数据
每个ReduceTask默认启动5个copy线程到已完成的MapTask任务节点上分别copy一份属于自己的数据（使用Http的方式）
③ 保存数据先到memory buffer 再merge到磁盘
先buffer后磁盘，执行combiner（如果有）
④ 启动磁盘到磁盘的Merge生成最终的文件
⑤ shuffle过程结束。之后运行reduce方法，执行相应的业务逻辑

--------------------------------------------------------------------------------------------------------------------加粗样式

以上就是我自己对Map,Reduce,Shuffle的理解。

傷訫

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
菜鸟进阶(Map,Reduce,Shuffle详解)

Map的详解:1:每个大文件会切成N个小文件或切片2:默认按照block大小进行切分3:每个小文件或切片对应一个maptask4:部分文件压缩格式无法Split,所以上传文件的时候请注意压缩包类型Combiner的应用：由以上两个图片我们可以看出有没有Combiner对WordCount的影响，而Combiner是map端的小范围reduce操作，用好了事半功倍，用不好影响结果的...
复制链接

扫一扫