Spark中RDD的理解

1.什么是RDD

RDDRDDSpark的计算模型 RDDResilient Distributed Dataset)叫做弹性的分布式数据集合,是Spark中最基本的数据抽象,它代表一个不可变、只读的,被分区的数据集。

操作RDD就像操作本地集合一样,数据会被分散到多台机器中(以分区为单位)。

 

 

RDDSpark中的一个基本抽象(可以理解为代理)

有了RDD,就可以像操作本地的集合一样,有很多的方法可以调用,使用方便,而无需关心底层的调度细节。

 

2.RDD操作类型

RDD中算子可分为两类:

RDD支持的两中类型的操作:

转换(Transformation):现有的RDD通过转换生成一个新的RDDlazy模式,延迟执行。

 

转换的函数:mapfilterflatmapgroupByKeyreduceBykeyaggregateByKeyunionjoincoalesce等等。

 

动作(Action):RDD上运行计算,并返回结果给驱动程序(Drive)或写入文件系统。

 

动作操作函数:reduce,collect,count,frist,take,countByKey以及foreach等等。

 

collect该方法把数据收集到driver端   Array数组类型

 

所有的transfromation只有遇到action才能执行。

 

当触发执行action之后,数据类型就不再是RDD了,数据就会存到指定的文件系统中,或者直接打印结果或者收集起来。

 

RDD操作流程示意:

 

 

RDD的运行逻辑:

下图所示,在Spark应用中,整个执行流程在逻辑上运算之间会形成有向无环图。Action算子触发之后会将所有累积的算子形成一个有向无环图,然后由调度器调度该图上的任务进行运算。

Spark的调度方式与MapReduce有所不同。Spark根据RDD之间不同的依赖关系切分形成不同的阶段(Stage),一个阶段包含一系列函数进行流水线执行。

图中的ABCDEFG,分别代表不同的RDDRDD内的一个方框代表一个数据块。数据从HDFS输入Spark,形成RDD ARDD CRDD C上执行map操作,转换为RDD DRDD BRDD F进行join操作转换为G,而在BG的过程中又会进行Shuffle。最后RDD G通过函数saveAsSequenceFile输出保存到HDFS中。

 

RDD的转换与操作:


 

wordcount实例,查看lazy特性。

只有在执行action时,才会真正开始运算,才能得到结果或储存到文件中。

3.创建RDD

1)集合并行化创建(通过scala集合创建)scala中的本地集合------> spark RDD

 

 

 

val  arr=Array1  to  10

 

val  rdd=sc.parallelizearr

 

val  rdd=sc.makeRDDarr

 

2)

//读取外部文件系统,比如HDFS

val  rdd2 = sc.textFile(“hdfs://hdp-nn-01:9000/words.txt”)

//读取本地文件

val  rdd2 = sc.textFile(“file:///root/words.txt”)

 

3)从父RDD转换成新的子RDD,最常用方式

 

调用Transformation 类的方法,生成新的RDD

 

4.RDD的分区:

rdd中和文件切片相关的概念叫做分区,也就是说对rdd进行操作,实际上是操作的rdd中的每一个分区,分区的数量决定了并行的数量。

使用rdd.partitions.size或者rdd.partitions.length查看分区数量。

 

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值