Spark 创建RDD、DataFrame各种情况的默认分区数

董可伦

已于 2023-02-07 14:33:50 修改

阅读量1.9w

点赞数 24

分类专栏： DataFrame RDD Spark 文章标签： spark scala big data

于 2018-08-14 10:55:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dkl12/article/details/81663018

版权

Spark 同时被 3 个专栏收录

76 篇文章 8 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

5 篇文章 1 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

本文详细探讨了Spark在创建RDD和DataFrame时的默认分区策略，涉及sc.defaultParallelism、sc.defaultMinPartitions的设定及其影响。讨论了在不同场景下，如HDFS文件、本地文件、关系型数据库以及从内部数据集创建时的分区数。指出分区数为1可能导致性能问题，并给出了合理设置分区数的建议。

摘要由CSDN通过智能技术生成

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站：https://www.captainai.net/dongkelun

前言

熟悉Spark的分区对于Spark性能调优很重要，本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数，其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDFS文件的Block数量有关，还有很坑的某些情况的默认分区数为1。

如果分区数少，那么并行执行的task就少，特别情况下，分区数为1，即使你分配的Executor很多，而实际执行的Executor只有1个，如果数据很大的话，那么任务执行的就很慢，好像是卡死了~，所以熟悉各种情况下默认的分区数对于Spark调优就很有必要了，特别是执行完算子返回的结果分区数为1的情况，更需要特别注意。（我就被坑过，我已经分配了足够多的Executor、默认的并行度、以及执行之前的数据集分区数，但分区数依然为1）

1、关于 sc.defaultMinPartit

了解本专栏

超级会员免费看

关注

24
点赞
踩
51

收藏

觉得还不错? 一键收藏
打赏
12
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

董可伦 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。