[spark] repartition与partitionBy的区别

最新推荐文章于 2024-07-18 11:26:53 发布

da_kao_la

最新推荐文章于 2024-07-18 11:26:53 发布

阅读量5.6k

点赞数 5

分类专栏： Spark 文章标签： spark repartition partitionBy coalesce shuffle

本文链接：https://blog.csdn.net/da_kao_la/article/details/106137757

版权

本文探讨了Spark中的repartition和partitionBy算子在数据重新分区时的不同行为。repartition会随机分布数据，而partitionBy允许指定Partitioner，确保相同key的数据位于同一Partition，从而减少shuffle次数，提高效率。通过案例分析和源码剖析，阐述了两者在wordcount场景下的应用和内部实现机制。

摘要由CSDN通过智能技术生成

Spark中，repartition和partitionBy都是重新分区的算子，其中partitionBy只能作用于PairRDD. 但是，当作用于PairRDD时，repartition和partitionBy的行为是不同的。repartition是把数据随机打散均匀分布于各个Partition；而partitionBy则在参数中指定了Partitioner（默认HashPartitioner），将每个(K,V)对按照K根据Partitioner计算得到对应的Partition. 在合适的时候使用partitionBy可以减少shuffle次数，提高效率。

案例

下面是一个简单的wordcount的例子，输入的序列分为2个分区，希望输出3个分区。

使用repartition，会产生两次shuffle：repartition一次，reduceByKey一次

val rdd = sc.parallelize(List(('a',1), ('a', 2), ('c', 3), ('b', 4), ('c', 5), ('b', 6), ('a', 7)), 2)
val partRdd = rdd.repartition(3)
val reduceRdd = partRdd.reduceBy