Spark学习记录|RDD分区的那些事

以前在工作中主要写Spark SQL相关的代码,对于RDD的学习有些疏漏。本周工作中学习了一些简单的RDD的知识,主要是关于RDD分区相关的内容。下面的内容都是自己亲身实践所得,如果有错误的地方,还希望大家批评指正。

本文的目录如下:

1、RDD特性-分区列表
2、宽/窄依赖
3、RDD的创建
4、查看分区数据:mapPartitionsWithIndex
5、笛卡尔积:cartesian
6、数据分组:groupByKey
7、重新分区:repartition VS coalesce
8、map Vs mapPartitions

在正式开始文章内容之前,先介绍一下咱们的背景。考虑一下机器学习中网格搜索策略,比如随机森林中,我们想得到n_estimators和max_depth两个参数的最优组合,我们会对给出的参数取值范围计算笛卡尔积,然后对每一种组合训练得到一个效果,并选取效果最好的一组参数。假设我们想使用spark把这个过程并行化,但是参数组合数量太多,没有足够的计算资源,只能一个task上运行几组参数。

举例来说,假设n_estimators有10个取值,max_depth有5个取值,共有5*10=50种组合,最好的方法就是并行50个task。但是由于资源不足,我们只能并行执行10个task,也就是说一个task上执行五组参数组合。

好了,介绍完了背景,是不是很简单?接下来就介绍一下在这一过程中的一些学习收获。

1、RDD特性-分区列表

Spark中的RDD是被分区的,每一个分区都会被一个计算任务(Task处理),分区数决定了并行计算的数量。

2、宽/窄依赖

RDD中的一些算子,会将一个RDD转换为另一个RDD,在这一过程中,由于RDD是分区的,就会产生不同的依赖关系,主要分为宽依赖和窄依赖。

2.1 窄依赖

窄依赖如下图所示:

先定义一下,上图中每一组中左边的称做父RDD、右边的称为子RDD,那么窄依赖就是说:每一个父RDD中的Partition最多被子RDD中的1个Partition所使用。窄依赖最常见的就是map算子。

2.2 宽依赖

宽依赖的示意图如下:

在宽依赖中,一个父RDD的Partition会被多个子RDD所使用。宽依赖也很常见,如我们下文要介绍的groupByKey和repartition。

介绍完一些简单的知识之后,我们开始进入正题了,你应该还没有忘记刚才的背景介绍吧!

3、RDD的创建

首先创建一个sparkSession的对象:

val spark = SparkSession
.builder()
.appName("Spark SQL basic example")
.enableHiveSupport()
.getOrCreate()

spark.sparkContext.setLogLevel("WARN")

接下来,咱们建立两个RDD,分别是n_estimators和max_depth对应的取值

val n_estimators = Array(10,20,30,40,50,60,70,80,90,100)
val max_depth = Array(3,4,5,6,7)

val n_estimators_rdd = spark.sparkContext.parallelize(n_estimators)
val max_depth_rdd = spark.sparkContext.parallelize(max_depth)

先来查看一下分区数量:

println(n_estimators_rdd.partitions.length)
println(max_depth_rdd.partitions.length)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值