shuffle 调优之原理概述

最新推荐文章于 2021-09-29 18:24:52 发布

唐予之_

最新推荐文章于 2021-09-29 18:24:52 发布

阅读量750

点赞数

分类专栏： -----Spark 大数据文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lxhandlbb/article/details/78880462

版权

-----Spark 同时被 2 个专栏收录

50 篇文章 0 订阅

订阅专栏

29 篇文章 0 订阅

订阅专栏

一、什么情况下会发生Shuffle？

在spark中，主要是以下几个算子：

groupByKey
reduceByKey
reduceByKey
Join

二、什么是shuffle？

groupByKey，要把分布在集群各个节点上的数据中的同一个key，对应的values，都给集中到一块儿，集中到集群中同一个节点上，

更严密一点说，就是集中到一个节点的一个executor的一个task中。

然后呢，集中一个key对应的values之后，才能交给我们来进行处理。

reduceByKey，算子函数去对values集合进行reduce操作，最后变成一个value；

countByKey，需要在一个task中，获取到一个key对应的所有的value，然后进行计数，统计总共有多少个value；

join，RDD

三、shuffle过程

每一个shuffle前半部分stage的task，每个task都会创建下一个stage 的task数量相同的文件
比如下一个stage会有100个task，那么当前satge每个task都会创建100份文件。会将同一个key对应的values ，一定是写入同一个文件中的。
不同节点的task，也一定会将同一个key对应的value，写入下一个tasge，同一个task对应文件中。

shuffle的后半部分stage的task，每个task都会从各个节点上的task写的属于自己的那一份文件中，拉取key, value对；

然后task会有一个【内存缓冲区】，然后会用HashMap，进行key, values的汇聚；(key ,values)；

（shuffle前半部分的task在写入数据到磁盘文件之前，
都会先写入一个一个的内存缓冲，
内存缓冲满溢之后，再spill溢写到磁盘文件中。）

task会用我们自己定义的聚合函数，比如reduceByKey(+)，

把所有values进行一对一的累加；

聚合出来最终的值。就完成了shuffle。

shuffle，一定是分为两个stage来完成的。

因为这其实是个逆向的过程，不是stage决定shuffle，是shuffle决定stage。

reduceByKey(+)，在某个action触发job的时候，DAGScheduler，会负责划分job为多个stage。

划分的依据，就是，如果发现有会触发shuffle操作的算子，比如reduceByKey，

就将
这个操作的前半部分，以及之前所有的RDD和transformation操作，划分为一个stage；

shuffle操作的后半部分，以及后面的，直到action为止的RDD和transformation操作，划分为另外一个stage。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
shuffle 调优之原理概述

一、什么情况下会发生Shuffle？在spark中，主要是以下几个算子：groupByKey reduceByKeyreduceByKeyJoin二、什么是shuffle？groupByKey，要把分布在集群各个节点上的数据中的同一个key，对应的values，都给集中到一块儿，集中到集群中同一个节点上，更严密一点说，就是集中到一个节点的一个executor的一个task中。然后呢，集中一
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。