Spark学习（二）：RDD详解

最新推荐文章于 2024-01-03 21:24:18 发布

jiezou12138

最新推荐文章于 2024-01-03 21:24:18 发布

阅读量363

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/jiezou12138/article/details/88942667

版权

本文深入探讨Spark的RDD概念，包括RDD的创建、transformation和action算子、宽依赖与窄依赖的关系。此外，还详细阐述了DAG的生成及Stage的划分规则，分析了Stage的计算模式和task并行度的决定因素。

摘要由CSDN通过智能技术生成

RDD的概念，注意事项已经在Spark的总体概述中说过，就不再提了，可以自行查看

常见的得到rdd有三种方式

集合并行化

通过SparkContext

sc.parallelize(xx,numpartition)

sc.parallelizePairs(seq[Tuple2<k,v>]) 将数据转换成K,V格式的RDD

sc.makeRDD(xx,numpartition)

sc.parallelize(xx,numpartition)

读取外部文件

sc.textFile(xxx,minNumPartitions)

sc.textFile(xxx,minNumPartitions)

其他方式

读取数据库等等其他的操作。也可以生成RDD。

RDD可以通过transformation由其他的RDD转换而来的。

常用的Transformation：

转换	含义
map(func)	返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成
filter(func)	返回一个新的RDD，该RDD由经过func函数计算后返回值为true的输入元素组成
flatMap(func)	类似于map，但是每一个输入元素可以被映射为0或多个输出元素（所以func应该返回一个序列，而不是单一元素）
mapPartitions(func)	类似于map，但独立地在RDD的每一个分片上运行，因此在类型为T的RDD上运行时，func的函数类型必须是Iterator[T] => Iterator[U]
mapPartitionsWithIndex(func)	类似于mapPartitions，但func带有一个整数参数表示分片的索引值，因此在类型为T的RDD上运行时，func的函数类型必须是 (Int, Interator[T]) => Iterator[U]
sample(withReplacement, fraction, seed)	根据fraction指定的比例对数据进行采样，可以选择是否使用随机数进行替换，seed用于指定随机数生成器种子
union(otherDataset)	对源RDD和参数RDD求并集后返回一个新的RDD
intersection(otherDataset)	对源RDD和参数RDD求交集后返回一个新的RDD
distinct([numTasks]))