嘴说手画Spark的Shuffle

Shuffle是所有分布式计算引擎都必须涉及的话题,一方面这是计算过程中无可避免的过程;另一方面由于Shuffle过程通常都伴随着网络IO和磁盘IO,是计算过程中的性能杀手,对shuffle的优化通常都会取得不错的效果。

先来看看Shuffle的原理,下面是Shuffle的过程示意图:
请添加图片描述
从图上可以看出,shuffle分为两个过程:

  • Shuffle Wirte
  • Shuffle Read

一,Shuffle Write

spark的Task分为两类,一是ShuffleMapTask,一是ResultTask。Shuffle Write有ShuffleMapTask完成。

过程如下:

  • 1,写缓存。ShuffleMapTask首先会将结果写入缓存,缓存的数据结果是Map,key由partitionId和key共同组成,partitionId通常某种算法基于key得到,partitionId决定这条数据由下游哪个Task处理。并且会对数据按照partitionId、key进行排序。
  • 2,写临时文件。当缓存被写满后,需要将缓存的内容顺序写入临时文件,可能会产生很多临时文件。
  • 3,合并。当Task完成后,需要将缓存、临时文件的数据进行合并,类似于归并排序,合并时保证partitionId、key的顺序,是的相同partitionId数据顺序写入文件。合并后会生成两个文件,一个文件是数据文件,保存key、value;另一个文件是index文件,保存的是每个paritionId的数据在data文件中的索引。

Shuffle Write过程中会涉及较多的磁盘IO。

这里,可以考虑加大缓冲区的大小,减少溢写临时文件的次数。

spark.shuffle.file.buffer,Map 阶段写入缓冲区大小

二,Shuffle Read

当ShuffleMapTask结束后,会启动ResultTask,ResultTask会根据partitionId从各个节点拉取同一个partitionId的数据。

可以看出,Shuffle Read涉及了网络IO。

对于这个阶段,可以考虑加大每次拉取数据的大小,减少拉取次数。

spark.reducer.maxSizeInFlight ,Reduce 阶段读缓冲区大小

三,优化

1,参数优化

对于上面提到的两个阶段,性能瓶颈分别是磁盘IO和网络IO,优化可以考虑加大写时缓存大小,读时拉取数据块大小。
在这里插入图片描述

但这种优化,通常不会有特别明显的效果。

2,使用广播

对于join计算,可以考虑将小的数据集通过广播方式分发到Executor,这样可以避免大数据集在网络上的分发,有时能起到非常大的性能提升。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小手追梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值