spark中RDD分区解读

最新推荐文章于 2024-05-04 15:53:03 发布

稳哥的哥

最新推荐文章于 2024-05-04 15:53:03 发布

阅读量371

点赞数

分类专栏： Spark 文章标签： rdd 分区

本文链接：https://blog.csdn.net/shufangreal/article/details/103274774

版权

Spark 专栏收录该内容

19 篇文章 1 订阅

订阅专栏

spark中RDD分区决定参数

# map端task的数量与RDD的分区数是一致的
spark.default.parallelism = max(所有executor使用的core总数，2) 
spark.files.maxPartitionBytes = 128 M (默认) 每个分区的最大字节数

sc.defaultParallelism = spark.default.parallelism
sc.defaultMinPartitions = min(spark.default.parallelism,2)

# 不同数据源的RDD分区个数
    1) 集合-RDD分区数 = sc.defaultParallelism
    2) 本地文件-RDD分区数 =  max(文件的切片数 ,sc.defaultMinPartitions)
    3) hdfs文件-RDD分区数 =  max(文件的block数目 ,sc.defaultMinPartitions)
    4) hive-RDD分区数 = max(文件的block数目 ,sc.defaultMinPartitions)
    5) hbase-RDD分区数 = region的个数
    6) kafka-kafka topicPartition的数目

# reduce端task的数量 
		可用通过reducebykey这样的算子指定
		mapstage的最后一个rdd的分区数

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

稳哥的哥

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark中RDD分区解读

spark中RDD分区决定参数# map端task的数量与RDD的分区数是一致的spark.default.parallelism = max(所有executor使用的core总数，2) spark.files.maxPartitionBytes = 128 M (默认) 每个分区的最大字节数sc.defaultParallelism = spark.default.parall...
复制链接

扫一扫