大数据实时处理 3.3 掌握RDD分区

RDD是Spark中的基本数据结构,由多个分区组成,分区数量影响并行计算的粒度。通过parallelize方法创建RDD时,可以指定分区数量,以优化计算效率。默认情况下,分区数量基于Spark配置和集群资源确定。分区策略有助于减少网络通信开销,提高程序性能。
摘要由CSDN通过智能技术生成

一、RRD分区

(一)RDD分区概念

  • RDD是一个大的数据集合,该集合被划分成多个子集合分布到了不同的节点上,而每一个子集合就称为分区(Partition)。因此,也可以说,RDD是由若干个分区组成的。

 

 (二)RDD分区作用
在分布式程序中,网络通信的开销是很大的,因此控制数据分布以获得最少的网络传输可以极大的提升程序的整体性能,Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区,系统会根据一个针对键的函数对元素进行分区。虽然Spark不能控制每个键具体划分到哪个节点上,但是可以确保相同的键出现在同一个分区上。
二、RDD分区数量
(一)RDD分区原则
RDD各个分区中的数据可以并行计算,因此分区的数量决定了并行计算的粒度。Spark会给每一个分区分配一个单独的Task任务对其进行计算,因此并行Task的数量是由分区的数量决定的。RDD分区的一个分区原则是使得分区的数量尽量等于集群中CPU核心数量。
(二)影响分区的因素
RDD的创建有两种方式:一种是使用parallelize()方法从对象集合创建;另一种是使用textFile()方法从外部存储系统创建。而RDD分区的数量与RDD的创建方式以及Spark集群的运行模式有关。
(三)使用parallelize()方法创建RDD时的分区数量
1、指定分区数量
使用parallelize()方法创建RDD时,可以传入第二个参数,指定分区数量。
 

 

  • 分区的数量应尽量等于集群中所有CPU的核心总数,以便可以最大程度发挥CPU的性能。
  • 利用mapPartitionsWithIndex()函数实现带分区索引的映射

 

 

第1个分区完成了3个元素的映射,第2个分区完成了3个元素的映射,第3个分区完成了4个元素的映射
2、默认分区数量
若不指定分区数量,则默认分区数量为Spark配置文件spark-defaults.conf中的参数spark.default.parallelism的值。若没有配置该参数,则Spark会根据集群的运行模式自动确定分区数量。
如果是本地模式,默认分区数量就等于本机CPU核心总数,这样每个CPU核心处理一个分区的计算任务,可以最大程度发挥CPU的性能。
如果是Spark Standalone或Spark On YARN模式,默认分区数量就取集群中所有CPU的核心总数与2中的较大值,即最少分区数为2。

  • 采用Standalone模式的Spark查询

 

 

  • 以集群模式启动Spark Shell

 

  • 注意: Spark集群是一个Master(master虚拟机)和两个Worker 

 

 

3、分区源码分析

  • parallelize()方法是在SparkContext类定义的

 

  • numSlices参数为指定的分区数量,该参数有一个默认值defaultParallelism,是一个无参函数

 

  • 上述代码中的taskScheduler的类型为特质TaskScheduler,通过调用该特质的defaultParallelism方法取得默认分区数量,而类TaskSchedulerImpl继承了特质TaskScheduler并实现了defaultParallelism方法。

 

 

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值