[大数据]连载No12之Spark Shuffle

本次知识点见目录

1:Spark计算会发生Shuffle的原因
大数据计算每一个key对应得value不一定在一个partition里,因为RDD是分布室的弹性的数据集


Shuffle 两阶段
1:Shuffle  Write
上一个stage的每个map task就必须保证将自己处理的当前分区的数据相同的key写入到一个分区文件中,可能就会写入多个不同的的分区文件中

2:shuffle Read
reduce task会从上一个stage的所有task所在的机器寻找属于自己的那些分区文件,这样就可以保证每一个key所对应的value都会汇聚在同一个节点上去处理和聚合

Hash Shuffle 和Sort Shuffle(默认)
区别:shuffle过程中,一个不会排序,一个会

Hash Shuffle两种机制
1:普通机制:产生小文件个数多,会生成 M(map Task)*R (reduce Task)个小文件,
2:合并机制:(优化后)配置 spark.shuffle.consolidateFiles=true,开启合并小文件机制,大幅度减少shuffle write的输出文件,但是每一个executor同一时刻只能执行一个task,后面task复用前面task执行的小文件,个数为 C(核个数)+R(reduce task)
3:成成文件个数:
如果 reduceByKey(_+_),那么reduceTask个数和map Task个数一致
如果 reduceByKey(_+_,numberPartitions),那么reduceTask个数为 numberPartitions


见图 spark-306-shuffle.png


Sort Shuffle两种运行机制
-普通运行机制,产生小文件个数 2(一个索引文件+一个结果)*M(mapTask)个
-bypass运行机制 没有排序过程,少了索引文件,触发条件 shuffle reduce task数量小于 
spark.shuffle.sort.bypassMergeThreshold参数的值

普通运行机制见图 :



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

源14

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值