spark中coalesce、repartition和partitionBy的异同

最新推荐文章于 2024-07-03 07:15:00 发布

枏

最新推荐文章于 2024-07-03 07:15:00 发布

阅读量1k

点赞数 4

分类专栏： spark 文章标签： spark 大数据 scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43101402/article/details/115921609

版权

本文探讨了Spark中coalesce、repartition和partitionBy的区别和使用场景。coalesce主要用于减小分区，可能导致数据倾斜，而repartition在扩大分区时会进行shuffle以确保数据均匀分布。partitionBy则关注按指定规则重分区。文中还提到shuffle操作的性能问题以及partitionBy的默认分区器。

摘要由CSDN通过智能技术生成

目录

coalesce
coalesce和repartition
shuffle
- 随机分配
- 性能问题
partitionBy
- partitionBy的使用
- - 隐式转换
  - 默认分区器`HashPartitioner`

在Spark中，这三者都是针对 分区操作的，功能较为类似
我的测试环境如下：

win10
scala2.12.10
spark-3.1.1-bin-hadoop3.2
hadoop3.2.2

coalesce

coalesce既可以实现RDD分区的合并缩小，也可以实现RDD分区的扩大

为什么要合并缩小分区

在 spark 程序中，若存在过多的小任务的时候，可以通过 coalesce 方法，收缩合并分区，减少分区的个数，减小任务调度成本
例如在大数据集经过过滤操作后，根据数据量进行缩减分区，实现提高数据集的执行效率

coalesce使用

减小分区

val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("coalesce")
val sc = new SparkContext(sparkConf)

val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4, 5, 6), numSlices = 3) // 设定分区数量为3
// 那么根据RDD的分区规则 数据分布为【1， 2】【3， 4】【5， 6】
// 可通过以下验证
rdd.saveAsTextFile(

最低0.47元/天解锁文章

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
spark中coalesce、repartition和partitionBy的异同

目录coalesce为什么要合并缩小分区coalesce使用减小分区这里出现数据倾斜的详细解释扩大分区coalesce和repartitionshufflepartitionBypartitionBy的使用隐式转换默认分区器`HashPartitioner`在Spark中，这三者都是针对分区操作的，功能较为类似我的测试环境如下：win10scala2.12.10spark-3.1.1-bin-hadoop3.2hadoop3.2.2coalescecoalesce既可以实现RDD分区的合
复制链接

扫一扫

专栏目录

枏 CSDN认证博客专家 CSDN认证企业博客

码龄6年

36: 原创

41万+: 周排名

89万+: 总排名

5万+: 访问

: 等级

794: 积分

14: 粉丝

77: 获赞

25: 评论

132: 收藏

私信

关注

热门文章

分类专栏

kafka 1篇
Scala 10篇
大数据 1篇
spark 6篇
树莓派 2篇
虚拟机 1篇
IDEA 2篇
楠楠的电子制作 1篇
Linux 8篇
Tensorflow
C 1篇
Android 1篇
Android Studio 2篇
gcc 2篇
天梯赛 3篇
JavaWeb 2篇
Java连接数据库 1篇

最新评论

用IDEA开发Servlet，html找不到servlet，Servlet注解无效
Holy Legend: 还是不行啊，action连项目名的路径都解析不了
Scala 循环逆序输出的几种形式
SERE834: 我0 to 10 用 reverse可以，但10 to 0 不行。。。为啥啊，大佬们
spark 运行自带样例SparkPi、spark-examples报错
who is: 博主，您好，出现Exception in thread "main" java.net.ConnectException: Call From master/192.168.3.190 to master:9000 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused 怎么解决（防火墙已经关闭的前提下）
用IDEA开发Servlet，html找不到servlet，Servlet注解无效
聖光龙毅: 我的也不行，大佬能帮我看看吗
spark 运行自带样例SparkPi、spark-examples报错
weixin_66315901: 你好，执行之后出现22/06/10 11:44:22 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 22/06/10 11:44:22 WARN DependencyUtils: Local jar /opt/module/spark-standalone/10 does not exist, skipping. Error: Failed to load class org.apache.spark.examples.SparkPi. 22/06/10 11:44:22 INFO ShutdownHookManager: Shutdown hook called 22/06/10 11:44:22 INFO ShutdownHookManager: Deleting directory /tmp/spark-4ea00bfd-bf9e-47f6-a320-46a17bc2e0bb 怎么解决

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。