Spark性能调优系列：(四)开发调优（尽量避免使用shuffle类算子）

最新推荐文章于 2022-05-02 20:55:54 发布

Mr Cao

最新推荐文章于 2022-05-02 20:55:54 发布

阅读量455

点赞数 2

分类专栏： spark 大数据文章标签： Spark性能调优

本文链接：https://blog.csdn.net/qq1021979964/article/details/102638149

版权

本文探讨了在Spark作业中如何通过避免使用shuffle类算子来提高性能，因为shuffle过程是性能的主要消耗点。建议使用map类非shuffle算子替代reduceByKey、join、distinct等触发shuffle的算子，以降低性能开销。

摘要由CSDN通过智能技术生成

调优：尽量避免使用shuffle类算子

Spark作业运行过程中，最消耗性能的就是shuffle过程

shuffle过程：将分布在集群中多个节点的同一个key，拉取到同一个节点上进行聚合或join操作，比如reduceByKey、join等算子都会触发shuffle操作。

shuffle过程中

shuffle过程中，各个节点上的相同Key都会先写入本地磁盘文件中，然后其它节点需要通过网络传输拉取各个节点上磁盘文件中的相同key，而且相同key都拉取到同一个节点进行聚合操作时，还可能因为节点上处理的key过多，导致内存不够存放，进而溢写到磁盘文件中。
因此在shuffle过程中，可能会发生大量的磁盘文件读写的I/O操作，以及数据的传输操作，磁盘IO和网络数据传输也是shuffle性能较差的主要原因。

因此我们尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle操作的算子，尽量使用map类的非shuffle算子，这样没有shuffle或较少的shuffle操作的Spark作业，可以大量减少性能开销。

Spark会进行shuffle操作的有以下算子

1.repartition类的操作：比如：repartition、repartitionAndSortWithinPartitions、coalesce等
2.byKey类的操作：比如reduceByKey、gr

最低0.47元/天解锁文章

Mr Cao

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark性能调优系列：(四)开发调优（尽量避免使用shuffle类算子）

调优：尽量避免使用shuffle类算子Spark作业运行过程中，最消耗性能的就是shuffle过程shuffle过程：将分布在集群中多个节点的同一个key，拉取到同一个节点上进行聚合或join操作，比如reduceByKey、join等算子都会触发shuffle操作。shuffle过程中shuffle过程中，各个节点上的相同Key都会先写入本地磁盘文件中，然后其它节点需要通过网络...
复制链接

扫一扫

专栏目录