目录
3、使用parallelize()方法创建RDD时的分区数量
一、RRD分区
1、分区概念
- RDD是一个大的数据集合,该集合被划分成多个子集合分布到了不同的节点上,而每一个子集合就称为分区(Partition)。因此,也可以说,RDD是由若干个分区组成的。
2、RDD分区作用
- 在分布式程序中,网络通信的开销是很大的,因此控制数据分布以获得最少的网络传输可以极大的提升程序的整体性能,Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区,系统会根据一个针对键的函数对元素进行分区。虽然Spark不能控制每个键具体划分到哪个节点上,但是可以确保相同的键出现在同一个分区上。
二、RDD分区数量
1、二、RDD分区数量
- RDD各个分区中的数据可以并行计算,因此分区的数量决定了并行计算的粒度。Spark会给每一个分区分配一个单独的Task任务对其进行计算,因此并行Task的数量是由分区的数量决定的。RDD分区的一个分区原则是使得分区的数量尽量等于集群中CPU核心数量。
2、影响分区的因素
- RDD的创建有两种方式:一种是使用
parallelize()
或makeRDD()
方法从对象集合创建;另一种是使用textFile()
方法从外部存储系统创建。RDD分区的数量与RDD的创建方式以及Spark集群的运行模式有关。
3、使用parallelize()方法创建RDD时的分区数量
3.1、指定分区数量
-
使用
parallelize()
方法创建RDD时,可以传入第二个参数,指定分区数量。 -
注意:采用本地模式启动Spark Shell(在master节点上)
- 分区的数量应尽量等于集群中所有CPU的核心总数,以便可以最大程度发挥CPU的性能。
- 利用
mapPartitionsWithIndex()
函数实现带分区索引的映射
- 第1个分区完成了3个元素的映射,第2个分区完成了3个元素的映射,第3个分区完成了4个元素的映射
3.2、默认分区数量
- 若不指定分区数量,则默认分区数量为Spark配置文件spark-defaults.conf中的参数spark.default.parallelism的值。若没有配置该参数,则Spark会根据集群的运行模式自动确定分区数量。
- 如果是本地模式,默认分区数量就等于本机CPU核心总数,这样每个CPU核心处理一个分区的计算任务,可以最大程度发挥CPU的性能。
- 如果是Spark Standalone或Spark On YARN模式,默认分区数量就取集群中所有CPU的核心总数与2中的较大值,即最少分区数为2。
- 我们采用的是Standalone模式的Spark集群
- 先用
spark-shell
本地模式启动
- 由此可见,本地机器
master
的CPU核数为4。
- 以集群模式启动Spark Shell
- Spark集群是一个Master(master虚拟机)和两个Worker(slave1和slave2虚拟机)
- 默认分区数是
8
。为什么是8
呢?集群两个工作节点(slave1和slave2)的CPU核数总和是4 + 4 = 8
3.3、
分区源码分析
parallelize()
方法是在SparkContext
类定义的
numSlices
参数为指定的分区数量,该参数有一个默认值defaultParallelism
,是一个无参函数
- 上述代码中的
taskScheduler
的类型为特质TaskScheduler,通过调用该特质的defaultParallelism方法取得默认分区数量,而类TaskSchedulerImpl继承了特质TaskScheduler并实现了defaultParallelism方法。
- 上述代码中的backend的类型为特质SchedulerBackend,通过调用该特质的defaultParallelism()方法取得默认分区数量,特质SchedulerBackend主要用于申请资源和对Task任务的执行和管理;而类LocalSched