Spark 性能调优 shuffle调优第一篇

最新推荐文章于 2020-06-08 14:27:00 发布

chixushuchu

最新推荐文章于 2020-06-08 14:27:00 发布

阅读量145

点赞数

分类专栏：实战文章标签： Spark 大数据性能调优 shuffle调优

本文链接：https://blog.csdn.net/chixushuchu/article/details/85061706

版权

实战专栏收录该内容

61 篇文章 2 订阅

订阅专栏

一些会触发shuffle的算子

groupByKey

把分布在集群各个节点上的数据中的同一个key，对应的values，都给集中到一块儿，集中到集群中同一个节点上，更严密一点说，就是集中到一个节点的一个executor的一个task中。然后呢，集中一个key对应的values之后，才能交给我们来进行处理

reduceByKey

函数对values集合进行reduce操作，最后变成一个value

countByKey

需要在一个task中获取到一个key对应的所有value，然后计数，统计多少个value

join

RDD<key, value>，RDD<key, value>，只要是两个RDD中，key相同对应的2个value，都能到一个节点的executor的task中

reduceByKey shuffle聚合示意图

reduceByKey(_+_) ，同一个单词，比如说（hello,1）,可能都是散落在不同的节点上；如果对每个单词进行累加计数，就必须让所有单词都跑到一个节点的一个task中，给一个task来处理。

shuffle stage划分

shuffle stage一定是划分为两个部分；因为这是个逆向过程，不是stage决定shuffle，是shuffle决定stage

shuffle算子，在某个action触发job的时候，DAGScheduler，会负责划分job多个stage。划分依据就是，如果发现有触发shuffle操作算子，就比如reduceByKey ，就会将这个操作的前半部分，以及之前所有的RDD和transformation 操作，划分为一个stage,

shuffle操作的后半部分，以及后面的，直到action为止的RDD和transformation操作，划分为另外一个stage.

shuffle 前后两部分 task任务

shuffle前半部分（属于stage0）

每一个shuffle的前半部分task，都会创建下一个stage的task数量相同的文件，比如下一个stage会有100个task,那么当前stage每个task都会创建100份文件；会将同一个key对应的values,写入同一个文件中（先入磁盘文件前，会先写入内存缓冲，内存缓冲满溢以后，再Spill溢写到磁盘文件中）；不同节点上的task,也一定会将同一个key对应的values,写入同一个key对应的values,写入下一个stage，同一个task对应的文件中

shuffle后半部分(属于stage1)

shuffle的后半部分stage的task，每个task都会从各个节点上的task 所写的那份属于自己的那份文件中，拉取key，value值；然后task会有一个内存缓冲区，用hashMap，进行key,values的汇聚，（key,values）

chixushuchu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark 性能调优 shuffle调优第一篇

一些会触发shuffle的算子groupByKey把分布在集群各个节点上的数据中的同一个key，对应的values，都给集中到一块儿，集中到集群中同一个节点上，更严密一点说，就是集中到一个节点的一个executor的一个task中。然后呢，集中一个key对应的values之后，才能交给我们来进行处理reduceByKey函数对values集合进行reduce操作，最后变成一个val...
复制链接

扫一扫

专栏目录