Spark学习-一文了解RDD

最新推荐文章于 2024-08-01 09:26:14 发布

Cicada128

最新推荐文章于 2024-08-01 09:26:14 发布

阅读量597

点赞数

分类专栏：数据开发

本文链接：https://blog.csdn.net/weixin_42078760/article/details/107272921

版权

数据开发专栏收录该内容

64 篇文章 2 订阅

订阅专栏

什么是RDD

RDD（Resilient Distributed Dataset）弹性分布式数据集，RDD从字面理解，分为三个层面：弹性、分布式、数据集。

RDD是一种数据集，是Spark对于要处理的数据的抽象，就像Java等高级编程语言中的List、HashMap等集合；

分布式是因为我们通常是以集群形式进行分布式计算，RDD中的数据并非存在一个节点，而是分布于集群各个节点，便于调用各个节点的算力;

RDD的弹性，则涉及较多，如数据分片和调度的弹性、自动进行内存和磁盘数据存储切换的弹性等。

一言以蔽之，RDD是Spark进行数据处理所使用的特殊数据类型。

注意：RDD时只读类型，对RDD的任何操作都不改变RDD本身，只会产生新的RDD。

如何创建RDD

RDD的数据来源有以下几种：

集合对象，如Array、List、Set、Map等

val arrayRDD: RDD[Int] = sparkContext.parallelize(1 to 10)

外部数据集，如本地文件、HDFS文件等

# HDFS
val hdfsTxtRDD: RDD[String] = sparkContext.textFile("hdfs://localhost:9000/data/test.txt")

# 本地文件
val localTxtRDD: RDD[String] = sparkSession.sparkContext.textFile("C:/Users/86180/Desktop/*.txt")

外部数据路径可以指定目录，也可以使用通配符。

通过其他RDD转换

val rddNew: RDD[Int]=arrayRDD.map(i->i*2)

RDD的底层存储原理

在这里插入图片描述

一个RDD以Block形式分布在集群各个节点
集群各个节点都有一个Manager专门管理Block
当发生RDD出现创建时，从节点的BlockManager会向主节点的BlockManger发起注册
当RDD不再需要时，主节点会向从节点发送删除指令
可以看出，主节点的BlockManager只负责管理RDD与Block的关系，并进行操作调度，而不管理Block

RDD的转换和行动操作

针对RDD的操作，主要分为转换操作和行动操作两类，其区别在于是否真正进行计算，转换操作并不执行计算，只有当发起行动操作时才会执行。

了解Java的会发现对RDD的操作，非常类似于文件流Stream的相关操作，如map、filter、count、collect等方法。

转换操作只记录RDD的变换轨迹，类似于制定行动方案，行动操作则相当于执行方案。

常用操作算子

常用的RDD操作主要有以下几个算子：

映射操作map与flatMap函数 https://blog.csdn.net/weixin_42078760/article/details/106981781
过滤操作filter与filterNot函数 https://blog.csdn.net/weixin_42078760/article/details/106982020
规约操作reduce与fold函数 https://blog.csdn.net/weixin_42078760/article/details/106982030
拆分操作partition、grouped、groupBy和sliding函数 https://blog.csdn.net/weixin_42078760/article/details/106982271