RDD SparkSubmit分区个数详解源码解读

最新推荐文章于 2023-03-05 17:12:13 发布

Anssin_索隆三刀流

最新推荐文章于 2023-03-05 17:12:13 发布

阅读量269

点赞数

分类专栏： SPARK 笔记文章标签： Spark

本文链接：https://blog.csdn.net/m0_46570085/article/details/107192189

版权

RDD分区个数

1在创建RDD时可以指定分区数量

sc.textFile("hdfs:linux01:9000/data",5) 这里的5就是指定的分区数量

2在启动Spark-shell时指定cores ,也是分区数量

/opt/apps/spark-3.0.0/bin/spark-shell --master spark://linux02:7077 --executor-memory 1g --total-executor-cores 6

如果在创建RDD时没有指定分区数量那么它将使用默认的分区数量最大为6

一般情况下根据文件block块,一个block块对应一个分区

但是也有特殊情况比如一个文件相比其他文件比较大这时将会有多个分区来处理他

让我们看下面代码

scala> val lines = sc.textFile("hdfs://linux01:9000/data")
lines: org.apache.spark.rdd.RDD[String] = hdfs://linux01:9000/data MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.partitions.length
res0: Int = 3

scala> val lines = sc.textFile("hdfs://linux01:9000/data",2)
lines: org.apache.spark.r

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Anssin_索隆三刀流

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD SparkSubmit分区个数详解源码解读

RDD分区个数 1在创建RDD时可以指定分区数量 sc.textFile("hdfs:linux01:9000/data",5) 这里的5就是指定的分区数量2在启动Spark-shell时指定cores ,也是分区数量/opt/apps/spark-3.0.0/bin/spark-shell --master spark://linux02:7077 --executor-memory 1g --total-executor-cores 6如果在创建RDD时没有指定分区数...
复制链接

扫一扫