菜鸟进阶(Map,Reduce,Shuffle详解)

Map的详解:
在这里插入图片描述
1:每个大文件会切成N个小文件或切片
2:默认按照block大小进行切分
3:每个小文件或切片对应一个maptask
4:部分文件压缩格式无法Split,所以上传文件的时候请注意压缩包类型
Combiner的应用:
在这里插入图片描述
在这里插入图片描述
由以上两个图片我们可以看出有没有Combiner对WordCount的影响,而Combiner是map端的小范围reduce操作,用好了事半功倍,用不好影响结果的准确性,所以我们应该谨慎使用。

Partitioner的应用:
默认HashPartitioner (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks
针对特定需求可自定义partitioner,同一Partitioner数据必然shuffle到同一Reduce
partitioner的个数与reduce task个数保持一致

Map总结:
split:用于切片
Combiner:----map端的redue
Partitioner----map端的数据分区

--------------------------------------------------------------------------------------------------加粗样式

Reduce详解:
1:Reduce的过程:
在这里插入图片描述
Reduce个数决定最终输出文件的个数
Reduce个数越多越好吗?
默认Reduce个数1
合理的Reduce个数
reduce个数 = InputFileSize / bytes per reducer
set mapred.reduce.tasks = xxx

2:Reduce的输出
在这里插入图片描述
Inputformat:FileInputFormat(default)
outputformat: FileOutputFormat(default)

--------------------------------------------------------------------------------------------------------------------------加粗样式

Shuffle的详解
1:Map-shuffle
在这里插入图片描述
① map不断产生数据到Memory
② memory buffer spill到磁盘
缓冲区大小达到阀值时,默认是100*0.8(80M),开始启动溢写线程,内存到磁盘,同时map输出的结果继续由另一个线程往剩余的20M里写,两个线程相互独立。spill的过程中做Sort和Combine,按partition和key依次排序
③ 多个小文件Merge成一个大文件
Merge的过程中对数据做Sort和Combine操作,Merge后的文件包含partition信息,便于shuffle
④ 本Map task执行完成

2:Reduce-shuffle
在这里插入图片描述
① MapTask完成任务数超过总数的5%后,开始调度执行ReduceTask任务
② 各Reduce Task 并行拉取数据
每个ReduceTask默认启动5个copy线程到已完成的MapTask任务节点上分别copy一份属于自己的数据(使用Http的方式)
③ 保存数据先到memory buffer 再merge到磁盘
先buffer后磁盘,执行combiner(如果有)
④ 启动磁盘到磁盘的Merge生成最终的文件
⑤ shuffle过程结束。之后运行reduce方法,执行相应的业务逻辑

--------------------------------------------------------------------------------------------------------------------加粗样式

以上就是我自己对Map,Reduce,Shuffle的理解。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值