1.什么是RDD?
RDD:RDD是Spark的计算模型 RDD(Resilient Distributed Dataset)叫做弹性的分布式数据集合,是Spark中最基本的数据抽象,它代表一个不可变、只读的,被分区的数据集。
操作RDD就像操作本地集合一样,数据会被分散到多台机器中(以分区为单位)。
RDD是Spark中的一个基本抽象(可以理解为代理)
有了RDD,就可以像操作本地的集合一样,有很多的方法可以调用,使用方便,而无需关心底层的调度细节。
2.RDD操作类型
RDD中算子可分为两类:
RDD支持的两中类型的操作:
转换(Transformation):现有的RDD通过转换生成一个新的RDD。lazy模式,延迟执行。
转换的函数:map,filter,flatmap,groupByKey,reduceBykey,aggregateByKey,union,join,coalesce等等。
动作(Action):在RDD上运行计算,并返回结果给驱动程序(Drive)或写入文件系统。
动作操作函数:reduce,collect,count,frist,take,countByKey以及foreach等等。
collect该方法把数据收集到driver端 Array数组类型
所有的transfromation只有遇到action才能执行。
当触发执行action之后,数据类型就不再是RDD了,数据就会存到指定的文件系统中,或者直接打印结果或者收集起来。
RDD操作流程示意:
RDD的运行逻辑:
如下图所示,在Spark应用中,整个执行流程在逻辑上运算之间会形成有向无环图。Action算子触发之后会将所有累积的算子形成一个有向无环图,然后由调度器调度该图上的任务进行运算。
Spark的调度方式与MapReduce有所不同。Spark根据RDD之间不同的依赖关系切分形成不同的阶段(Stage),一个阶段包含一系列函数进行流水线执行。
图中的A、B、C、D、E、F、G,分别代表不同的RDD,RDD内的一个方框代表一个数据块。数据从HDFS输入Spark,形成RDD A和RDD C,RDD C上执行map操作,转换为RDD D,RDD B和RDD F进行join操作转换为G,而在B到G的过程中又会进行Shuffle。最后RDD G通过函数saveAsSequenceFile输出保存到HDFS中。
RDD的转换与操作:
wordcount实例,查看lazy特性。
只有在执行action时,才会真正开始运算,才能得到结果或储存到文件中。
3.创建RDD
1)集合并行化创建(通过scala集合创建)scala中的本地集合------> spark RDD
val arr=Array(1 to 10)
val rdd=sc.parallelize(arr)
val rdd=sc.makeRDD(arr)
2)
//读取外部文件系统,比如HDFS等
val rdd2 = sc.textFile(“hdfs://hdp-nn-01:9000/words.txt”)
//读取本地文件
val rdd2 = sc.textFile(“file:///root/words.txt”)
3)从父RDD转换成新的子RDD,最常用方式
调用Transformation 类的方法,生成新的RDD
4.RDD的分区:
rdd中和文件切片相关的概念叫做分区,也就是说对rdd进行操作,实际上是操作的rdd中的每一个分区,分区的数量决定了并行的数量。
使用rdd.partitions.size或者rdd.partitions.length查看分区数量。