Spark Rdd coalesce()方法和repartition()

最新推荐文章于 2024-07-18 11:26:53 发布

CottonDuke

最新推荐文章于 2024-07-18 11:26:53 发布

阅读量1k

点赞数

coalesce()方法和repartition()都是对RDD重新分区的函数

coalesce(numPartitions: Int, shuffle: Boolean = false)

coalesce(1200,shuffle=true)

如果是生成一个窄依赖的结果，那么不会发生shuffle。比如：1000个分区被重新设置成10个分区，这样不会发生shuffle。

如果分区的数量发生激烈的变化，如设置numPartitions = 1，这可能会造成运行计算的节点比你想象的要少，为了避免这个情况，可以设置shuffle=true

当把父Rdd的分区数量增大时，比如Rdd的分区是100，设置成1000，如果shuffle为false，并不会起作用。

这时候就需要设置shuffle为true了，那么Rdd将在shuffle之后返回一个1000个分区的Rdd，数据分区方式默认是采用 hash partitioner。

repartition()方法就是coalesce()方法shuffle为true的情况。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

CottonDuke CSDN认证博客专家 CSDN认证企业博客

码龄9年

83: 原创

8万+: 周排名

201万+: 总排名

18万+: 访问

: 等级

2596: 积分

8: 粉丝

23: 获赞

7: 评论

47: 收藏

私信

关注

热门文章

分类专栏

Mac
娱乐
开发工具 1篇
leetCode 3篇
算法 2篇
hadoop 6篇
零碎知识 11篇
kafka 3篇
spark 7篇
storm 9篇
hbase 2篇
elasticsearch 12篇
python 2篇
maven 3篇
zookeeper 1篇
hive 9篇
flume 1篇
大数据 4篇
sqoop 2篇
linux 8篇
数据库 5篇
java 6篇
redis 2篇
spring
容器 1篇

最新评论

curl 发送http 请求
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。
三阶魔方公式
little_fat_sheep: 【Unity3D】魔方 https://zhyan8.blog.csdn.net/article/details/130210697
es 分页两种方法
加西亚马尔克斯: 第二个方法死循环？
k8s contianer 和pod的关系
kedach 回复山东大学刚果留学生: 不是的 k8s的框架是 node pod. container(容器是docker的概念是docker image的实例) k8s 就是通过node pod架构灵活控制container 运行的框架！
k8s contianer 和pod的关系
山东大学刚果留学生: 好像pod 算是一组容器吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。