Spark之coalesce合并分区源码

最新推荐文章于 2024-07-09 07:15:00 发布

大数据面壁者

最新推荐文章于 2024-07-09 07:15:00 发布

阅读量414

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_42796403/article/details/111656863

版权

spark 专栏收录该内容

30 篇文章 1 订阅

订阅专栏

本文详细解读了Spark的coalesce函数，探讨了其在不执行Shuffle情况下合并分区以优化小数据集性能，并介绍了repartition操作如何通过shuffle实现分区重排。涉及实际需求如4分区合并为2分区的源码分析。

摘要由CSDN通过智能技术生成

Spark之coalesce合并分区源码

Coalesce算子包括：配置执行Shuffle和配置不执行Shuffle两种方式。

1、不执行Shuffle方式

1）函数签名：

def coalesce(numPartitions: Int, shuffle: Boolean = false,  //默认false不执行shuffle
        partitionCoalescer: Option[PartitionCoalescer] = Option.empty)
        (implicit ord: Ordering[T] = null) : RDD[T]

2）功能说明：缩减分区数，用于大数据集过滤后，提高小数据集的执行效率。
3）需求：4个分区合并为2个分区
在这里插入图片描述

4）分区源码
在这里插入图片描述

2.repartition()重新分区（执行Shuffle）

1）函数签名：

def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

2）功能说明

该操作内部其实执行的是coalesce操作，参数shuffle的默认值为true。无论是将分区数多的RDD转换为分区数少的RDD，还是将分区数少的RDD转换为分区数多的RDD，repartition操作都可以完成，因为无论如何都会经shuffle过程。

3）需求说明：创建一个4个分区的RDD，对其重新分区。
在这里插入图片描述

大数据面壁者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录