Spark 之 shuffle 相关的算子

最新推荐文章于 2024-11-16 00:14:56 发布

字母的艺术

最新推荐文章于 2024-11-16 00:14:56 发布

阅读量462

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： spark shuffle repartition join reduceByKey

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/py_tamir/article/details/95457813

spark 专栏收录该内容

17 篇文章

订阅专栏

博客介绍了Spark中会产生Shuffle的操作类型，包括repartition类（如repartition等）、byKey类（如reduceByKey等）、join类（如join等），并说明了各类操作产生Shuffle的原因。同时给出使用建议，即尽量不用Shuffle操作，若使用则需调优并解决数据倾斜问题。

目录

1、repartition 类
2、byKey类
3、join类
4、使用建议

1、repartition 类

repartition类的操作：比如repartition、repartitionAndSortWithinPartitions、coalesce等。

重分区: 一般会shuffle，因为需要在整个集群中，对之前所有的分区的数据进行随机、均匀地打乱，然后把数据放入下游新的指定数量的分区内。

2、byKey类

byKey类的操作：比如reduceByKey、groupByKey、sortByKey等。

byKey类的操作：因为你要对一个key，进行聚合操作，那么肯定要保证集群中，所有节点上的相同的key，一定是到同一个节点上进行处理。

3、join类

join类的操作：比如join、cogroup等。

两个rdd进行join，就必须将join 相同 key的数据，shuffle到同一个节点上，然后进行相同key的两个rdd数据的笛卡尔乘积。

4、使用建议

第一原则，能不用shuffle操作，就尽量不用shuffle操作，尽量使用不shuffle的操作；
第二原则，如果使用了shuffle操作，那么肯定要进行shuffle的调优，甚至是解决碰到的数据倾斜的问题。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。