Spark中RDD的理解

最新推荐文章于 2024-07-08 10:05:46 发布

Amos_Mu

最新推荐文章于 2024-07-08 10:05:46 发布

阅读量4.8k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mys_35088/article/details/80979873

版权

1.什么是RDD？

RDD：RDD是Spark的计算模型 RDD（Resilient Distributed Dataset）叫做弹性的分布式数据集合，是Spark中最基本的数据抽象，它代表一个不可变、只读的，被分区的数据集。

操作RDD就像操作本地集合一样，数据会被分散到多台机器中（以分区为单位）。

RDD是Spark中的一个基本抽象（可以理解为代理）

有了RDD，就可以像操作本地的集合一样，有很多的方法可以调用，使用方便，而无需关心底层的调度细节。

2.RDD操作类型

RDD中算子可分为两类：

RDD支持的两中类型的操作：

转换（Transformation）：现有的RDD通过转换生成一个新的RDD。lazy模式，延迟执行。

转换的函数：map，filter，flatmap，groupByKey，reduceBykey，aggregateByKey，union，join，coalesce等等。

动作（Action）：在RDD上运行计算，并返回结果给驱动程序（Drive）或写入文件系统。

动作操作函数：reduce,collect,count,frist,take,countByKey以及foreach等等。

collect该方法把数据收集到driver端 Array数组类型

所有的transfromation只有遇到action才能执行。

当触发执行action之后，数据类型就不再是RDD了，数据就会存到指定的文件系统中，或者直接打印结果或者收集起来。

RDD操作流程示意：

RDD的运行逻辑：

如下图所示，在Spark应用中，整个执行流程在逻辑上运算之间会形成有向无环图。Action算子触发之后会将所有累积的算子形成一个有向无环图，然后由调度器调度该图上的任务进行运算。

Spark的调度方式与MapReduce有所不同。Spark根据RDD之间不同的依赖关系切分形成不同的阶段（Stage），一个阶段包含一系列函数进行流水线执行。

图中的A、B、C、D、E、F、G，分别代表不同的RDD，RDD内的一个方框代表一个数据块。数据从HDFS输入Spark，形成RDD A和RDD C，RDD C上执行map操作，转换为RDD D，RDD B和RDD F进行join操作转换为G，而在B到G的过程中又会进行Shuffle。最后RDD G通过函数saveAsSequenceFile输出保存到HDFS中。

RDD的转换与操作：

wordcount实例,查看lazy特性。

只有在执行action时，才会真正开始运算，才能得到结果或储存到文件中。

3.创建RDD

1）集合并行化创建（通过scala集合创建）scala中的本地集合------> spark RDD

val arr=Array（1 to 10）

val rdd=sc.parallelize（arr）

val rdd=sc.makeRDD（arr）

2)

//读取外部文件系统，比如HDFS等

val rdd2 = sc.textFile(“hdfs://hdp-nn-01:9000/words.txt”)

//读取本地文件

val rdd2 = sc.textFile(“file:///root/words.txt”)

3)从父RDD转换成新的子RDD,最常用方式

调用Transformation 类的方法，生成新的RDD

4.RDD的分区：

rdd中和文件切片相关的概念叫做分区，也就是说对rdd进行操作，实际上是操作的rdd中的每一个分区，分区的数量决定了并行的数量。

使用rdd.partitions.size或者rdd.partitions.length查看分区数量。

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。