【SPARK】- RDD分区

最新推荐文章于 2023-06-06 08:41:58 发布

肚子饿没人理

最新推荐文章于 2023-06-06 08:41:58 发布

阅读量535

点赞数

分类专栏： spark 文章标签： spark rdd 分区

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010530712/article/details/82655676

版权

spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

RDD是弹性分布式数据集，通常RDD很大，会被分成很多分区，分别保存在不同节点上

分区原则

RDD分区是使分区的个数尽量等于集群中的CPU核心数目

默认分区数

对于不同的Spark部署模式而言（本地模式、Standalone模式、YARN模式、Mesos模式），都可以通过设置spark.default.parallelism这个参数的值来配置默认分区数。

本地模式：默认为本地机器的CPU数目，若设置了local[N]，则默认为N

Mesos：默认分区数为8

Standalone/YARN：在“集群中所有CPU核心数目总和”和“2”二者中较大值作为默认值

如何手动设置分区

（1）创建RDD时：在调用textFile和parallelize方法时候手动指定分区个数，sc.textFile(path,partionNum)

对于parallelize而言，如果没有在方法中指定分区数，则默认为spark.default.parallelism

对于textFile而言，如果没有在方法中指定分区，则默认为min(defaultParallelism,2)，其中defaultParallelism对应的就是spark.default.parallelism

（2）通过转换操作得到新RDD时：直接调用reparation方法

如果是从HDFS中读取文件，则分区数为文件分片数（比如，128MB/片）

肚子饿没人理

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

肚子饿没人理 CSDN认证博客专家 CSDN认证企业博客

码龄11年

37: 原创

18万+: 周排名

124万+: 总排名

7万+: 访问

: 等级

1046: 积分

28: 粉丝

42: 获赞

19: 评论

126: 收藏

私信

关注

热门文章

分类专栏

matlab 2篇
python-爬虫 3篇
git的日常坑 1篇
神经网络 1篇
计算机网络 3篇
java 11篇
netty 2篇
字符集编码 1篇
数据库 1篇
spark 6篇
ubuntu 2篇
hbase 1篇
kafka 1篇
微服务 1篇
分布式系统 1篇
算法

最新评论

matlab文件导成jar注意事项
SimbaAXin: 我修改了可是依然这样
常见的分布式事务解决方案
yann.bai: 文中讲到：三阶段提交相较二阶段提交，引入了超时机制（无论协调者还是参与者，在向对方发送请求后，若长时间未收到回应则做出相应处理） 2pc的提交阶段不也有么，这里为什么单独提出来作为优点提呢
散列表及散列冲突解决方案
weixin_49525127: 是因为开放寻址法，每次插入数据都写到同一块连续的内存里，而且这块内存是缓存到CPU高速缓存里，所以就比链表法的内存上不连续(因为不连续导致内存不是写入到CPU缓存里) 要更好利用CPU缓存?
散列表及散列冲突解决方案
weixin_49525127: 楼主，您好！在文章最后对照表里，开放寻址法优点里【数据存储在数组，可以有效利用CPU缓存加速查询速度】，不太懂这个为什么都属于优点。链表法可以利用CPU缓存吧？
给幼儿园小朋友看的网络安全扫盲篇
乱舞虚空: 挺通俗易懂的，虽然这标题起太大了吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

肚子饿没人理 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。