# Spark makeRDD默认分区策略

最新推荐文章于 2023-03-14 13:57:21 发布

low-bee

最新推荐文章于 2023-03-14 13:57:21 发布

阅读量426

点赞数

分类专栏： spark 大数据

本文链接：https://blog.csdn.net/qq_45887821/article/details/115997532

版权

本文探讨了Spark的makeRDD方法默认的分区策略。通过指定参数，当length为4，numSlices为3时，数据会被如何均匀划分，如(0, 1), (1, 2), (2, 4)，解释了这种分区方式的原因。" 103606141,7407027,Linux环境下MySQL安装与配置指南,"['Linux', '数据库', 'MySQL', '服务器管理', '数据库部署']

摘要由CSDN通过智能技术生成

指定参数

sc.makeRDD(List[Int](1, 2, 3, 4), numSlices = 3)

得到结果
[1], [2], [3,4]

为什么会这样分呢?

//到对应的方法中
def parallelize[T: ClassTag](
      seq: Seq[T],
      numSlices: Int = defaultParallelism)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

low-bee

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
# Spark makeRDD默认分区策略

指定参数sc.makeRDD(List[Int](1, 2, 3, 4), numSlices = 3)得到结果[1], [2], [3,4]为什么会这样分呢?//到对应的方法中def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { assertNotStopped() new ParallelCollect
复制链接

扫一扫