Spark之RDD详细介绍

蓝胖子的宝贝

已于 2023-05-08 20:12:30 修改

阅读量591

点赞数

分类专栏：大数据技术分享文章标签： spark 大数据 hadoop

于 2023-05-08 20:11:11 首次发布

本文链接：https://blog.csdn.net/qq_42588609/article/details/130566318

版权

13 篇文章 0 订阅

订阅专栏

RDD（Resilient Distributed Datasets）是Spark中最基本的数据结构，它是一个不可变的分布式数据集合，可以在集群中进行并行处理。RDD可以从Hadoop的HDFS文件系统中读取数据，也可以从其他数据源中读取数据，如本地文件系统、Hive、Cassandra等。

RDD的特点：

RDD的操作：

RDD支持两种类型的操作：转换操作和行动操作。

转换操作：转换操作是指对RDD进行转换，生成新的RDD，但不会立即计算结果。常见的转换操作有map、filter、flatMap、union、distinct等。

1.1 map(func)：对RDD中的每个元素应用一个函数，返回一个新的RDD。

rdd = sc.parallelize([1, 2, 3, 4, 5])
new_rdd = rdd.map(lambda x: x * 2)
print(new_rdd.collect())  # 输出 [2, 4, 6, 8, 10]

1.2 filter(func)：对RDD中的每个元素应用一个函数，返回一个新的RDD，其中只包含满足条件的元素。

rdd = sc.parallelize([1, 2, 3, 4, 5])
new_rdd = rdd.filter(lambda x: x % 2 == 0)
print(new_rdd.collect())  # 输出 [2, 4]

1.3 flatMap(func)：对RDD中的每个元素应用一个函数，返回一个新的RDD，其中每个元素是一个序列，最终将所有序列合并成一个RDD。

rdd = sc.parallelize(["hello world", "hi"])
new_rdd = rdd.flatMap(lambda x: x.split())
print(new_rdd.collect())  # 输出 ["hello", "world", "hi"]

1.4 union(other)：将两个RDD合并成一个新的RDD。

rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([4, 5, 6])
new_rdd = rdd1.union(rdd2)
print(new_rdd.collect())  # 输出 [1, 2, 3, 4, 5, 6]

1.5 distinct()：返回一个新的RDD，其中包含原RDD中不重复的元素。

rdd = sc.parallelize([1, 2, 3, 2, 1])
new_rdd = rdd.distinct()
print(new_rdd.collect())  # 输出 [1, 2, 3]

2.1 collect()：将RDD中的所有元素返回到驱动程序中。

rdd = sc.parallelize([1, 2, 3, 4, 5])
result = rdd.collect()
print(result)  # 输出 [1, 2, 3, 4, 5]

2.2 count()：返回RDD中元素的数量。

rdd = sc.parallelize([1, 2, 3, 4, 5])
result = rdd.count()
print(result)  # 输出 5

2.3 reduce(func)：对RDD中的元素应用一个函数，返回一个单一的值。

rdd = sc.parallelize([1, 2, 3, 4, 5])
result = rdd.reduce(lambda x, y: x + y)
print(result)  # 输出 15

2.4 first()：返回RDD中的第一个元素。

rdd = sc.parallelize([1, 2, 3, 4, 5])
result = rdd.first()
print(result)  # 输出 1

2.5 take(n)：返回RDD中的前n个元素。

rdd = sc.parallelize([1, 2, 3, 4, 5])
result = rdd.take(3)
print(result)  # 输出 [1, 2, 3]

RDD的缓存：

RDD支持缓存机制，可以将RDD的数据缓存在内存中，加速后续的计算。缓存可以在RDD被计算之前或之后进行，可以使用cache或persist方法进行缓存。缓存可以在内存中、磁盘中或两者兼备，可以使用MEMORY_ONLY、MEMORY_AND_DISK、DISK_ONLY等缓存级别进行设置。

总之，RDD是Spark中最基本的数据结构，具有分布式、不可变性、弹性容错性和惰性计算等特点，支持转换操作和行动操作，还支持缓存机制，是Spark进行分布式计算的核心。

关注

专栏目录