【极简spark教程】RDD编程

鱼摆摆

已于 2022-04-12 22:44:51 修改

阅读量2.2k

点赞数

分类专栏： spark大数据分析文章标签： spark

于 2022-04-11 09:57:16 首次发布

本文链接：https://blog.csdn.net/ljp7759325/article/details/124091513

版权

spark大数据分析专栏收录该内容

7 篇文章 1 订阅

订阅专栏

入门

RDD编程指引

创建rdd集合，可以将rdd看做是spark分布式环境下的list

读取文件

RDD操作

转换transform：生成了新的RDD

行动action：汇总所有结果返回驱动程序

留意惰性(spark2.4.0中疑似取消了，因为以下代码在spark2.4.0中测试返回了正常结果)

入门

val textFile = sc.textFile("/test.csv")

//textFile为RDD类型，具有List的很多相似操作，可以进行循环遍历，例如map,foreach,filter等

map操作：对rdd中每行进行处理
flatmap操作：对rdd中每行进行展开处理
collect操作：将结果转换为Array类型
cache操作：将rdd和dataset保存在内存，被session持有

RDD编程指引

创建rdd集合，可以将rdd看做是spark分布式环境下的list

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data, 5)

// distData类型为ParallelCollectionRDD，且分片数为5

读取文件
1. 若读取本地文件，本地文件需要在所有节点上可以被访问到
2. 所有读取文件的方法都支持在目录上、通配符、压缩包上运行
```
sc.textFile("/my/directory")
sc.textFile("/my/directory/*.txt")
sc.textFile("/my/directory/*.gz")
```
3. 控制返回文件数量，通常情况下返回文件为一个文件夹下的多个文件，可以使用SparkContext.wholeTextFiles控制返回文件的个数，例如返回一个文件
```
SparkContext.sequenceFile[Int, String]
SparkContext.hadoopRDD
SparkContext.objectFile
```
RDD操作
1. 转换transform：生成了新的RDD
  1. map：返回一个新的分布式数据集，该数据集是通过将源的每个元素传递给函数func形成的
  2. mapValues：返回一个新的分布式数据集，同map相似，mapValues在(K,V)对的数据集上调用，仅对V进行操作
  3. filter：返回一个新的数据集，该数据集是通过选择源中func返回true的那些元素形成的
  4. flatmap：与map相似，但是每个输入项都可以映射到0个或多个输出项（因此func应该返回Seq而不是单个项）
  5. mapPartitions：与map相似，但是分别在RDD的每个分区（块）上运行，因此func在类型T的RDD上运行时必须为Iterator <T> => Iterator <U>类型
  6. mapPartitionsWithIndex：与mapPartitions相似，但它还为func提供表示分区索引的整数值，因此当在类型T的RDD上运行时，func必须为（Int，Iterator <T>）=> Iterator <U>类型
  7. sample：使用给定的随机数发生器的种子进行抽样，共三个参数，WithReplacement为true表示有抽样放回，原数据集大小不变，为false表示无放回抽样，原数据集在抽样后减少百分比，fraction表示抽样比例，seed表示随机数种子，Long型整数，例如12345L
  8. union：返回一个新的数据集，其中包含源数据集中的元素的并集
  9. intersection：返回一个新的RDD，其中包含源数据集中的元素的交集
  10. distinct：返回一个新的数据集，其中包含源数据集的不同元素
  11. groupByKey：在（K，V）对的数据集上调用时，返回（K，Iterable <V>）对的数据集。注意：如果要分组以便对每个键执行聚合（例如求和或平均值），则使用reduceByKey或aggregateByKey将产生更好的性能。注意：默认情况下，输出中的并行度取决于父RDD的分区数。您可以传递一个可选numPartitions参数来设置不同数量的任务。
  12. reduceByKey：在（K，V）对的数据集上调用时，返回（K，V）对的数据集，其中每个键的值使用给定的reduce函数func（其类型必须为（V，V）=>）进行汇总V.与in一样groupByKey，reduce任务的数量可以通过可选的第二个参数配置
  13. aggregateByKey：在（K，V）对的数据集上调用时，返回（K，U）对的数据集，其中每个键的值使用给定的Combine函数和中性的“零”值进行汇总。允许与输入值类型不同的聚合值类型，同时避免不必要的分配。像in中一样groupByKey，reduce任务的数量可以通过可选的第二个参数配置
  14. sortByKey：在由K实现Ordered的（K，V）对的数据集上调用时，返回（K，V）对的数据集，按布尔值指定，按键以升序或降序排序ascending
  15. join：在（K，V）和（K，W）类型的数据集上调用时，返回（K，（V，W））对的数据集，其中每个键都有所有成对的元素。外连接通过支持leftOuterJoin，rightOuterJoin和fullOuterJoin。注意：join之前最好确认rdd中元素的类型，防止出现Any类型，导致报错：but class RDD is invariant in type T.You may wish to define T as +T instead.
  16. cogroup：在（K，V）和（K，W）类型的数据集上调用时，返回（K，（Iterable <V>，Iterable <W>））元组的数据集。此操作也称为groupWith
  17. cartesian：笛卡尔积，在类型T和U的数据集上调用时，返回（T，U）对（所有元素对）的数据集
  18. pipe：通过shell命令（例如Perl或bash脚本）通过管道传输RDD的每个分区。将RDD元素写入进程的stdin，并将输出到其stdout的行作为字符串的RDD返回
  19. coalesce：将RDD中的分区数减少到numPartitions。筛选大型数据集后，对于更有效地运行操作很有用
  20. repartition：随机重排RDD中的数据以创建更多或更少的分区，并在整个分区之间保持平衡。这始终会拖曳网络上的所有数据
    1. repartition(1)：重排RDD中的数据，合并为一个分区
    2. repartition(col("colName"))：重排RDD中的数据，根据指定列的记录进行分区
  21. repartitionAndSortWithinPartitions：根据给定的分区程序对RDD重新分区，并在每个结果分区中，按其键对记录进行排序。这比repartition在每个分区内调用然后排序更为有效，因为它可以将排序推入洗牌机制
2. 行动action：汇总所有结果返回驱动程序
  1. reduce：使用函数func（该函数接受两个参数并返回一个）来聚合数据集的元素。该函数应该是可交换的和关联的，以便可以并行正确地计算它
  2. collect：在驱动程序中将数据集的所有元素作为数组返回。这通常在返回足够小的数据子集的过滤器或其他操作之后很有用
  3. count：返回数据集中的元素数
  4. first：返回数据集的第一个元素（类似于take（1））
  5. take：返回数据集的前n个元素的数组
  6. takeSample：返回一个数组，该数组包含数据集num个元素的随机样本（是否替换），可以选择预先指定随机数生成器种子
  7. takeOrdered：使用自然顺序或自定义比较器返回RDD 的前n个元素
  8. saveAsTextFile：将数据集的元素以文本文件（或文本文件集）的形式写入本地文件系统，HDFS或任何其他Hadoop支持的文件系统中的给定目录中。Spark将在每个元素上调用toString，以将其转换为文件中的一行文本
  9. saveAsSequenceFile：在本地文件系统，HDFS或任何其他Hadoop支持的文件系统的给定路径中，将数据集的元素作为Hadoop SequenceFile写入。这在实现Hadoop的Writable接口的键/值对的RDD上可用。在Scala中，它也可用于隐式转换为Writable的类型（Spark包括对基本类型（如Int，Double，String等）的转换
  10. saveAsObjectFile：使用Java序列化以简单的格式编写数据集的元素，然后可以使用进行加载 SparkContext.objectFile()
  11. countByKey：仅在类型（K，V）的RDD上可用。返回（K，Int）对的哈希图以及每个键的计数
  12. foreach：在数据集的每个元素上运行函数func。通常这样做是出于副作用，例如更新累加器或与外部存储系统进行交互。注意：在之外修改除累加器以外的变量foreach()可能会导致不确定的行为。有关更多详细信息，请参见了解闭包。
3. 缓存
  1. persist：可以根据参数进行不同级别的缓存MEMORY_ONLY、MEMORY_AND_DISK、MEMORY_ONLY_SER、MEMORY_AND_DISK_SER、DISK_ONLY
  2. cache：默认缓存级别MEMORY_ONLY
  3. 缓存级别选择：MEMORY_ONLY>MEMORY_ONLY_SER>MEMORY_AND_DISK
  4. unpersist：释放缓存
4. 打印部分记录
  1. collect：将全部记录汇总到一台机器上，可能会耗尽内存
  2. take：获取部分记录
5. 共享变量
  1. 广播变量：在所有节点上创建一个只读变量，在使用时不应该调用函数中的指定变量值，而是直接使用指定广播变量，而且防止修改节点上的广播变量，dataFrame和变量都可以使用broadcast进行广播，但是rdd不可以
```
val broadcastVar = sc.broadcast(Array(1, 2, 3))

val broadcastDF = functions.broadcast(df)
```

累加器

创建累加器

val accum = sc.longAccumulator("My Accumulator")

sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum.add(x))

println(accum.value)

构造累加器


//继承AccumulatorV2

class VectorAccumulatorV2 extends AccumulatorV2[MyVector, MyVector] {
private val myVector: MyVector = MyVector.createZeroVector
def reset(): Unit = {
  myVector.reset()
  }

def add(v: MyVector): Unit = {
  myVector.add(v)
  }
}

// 创建累加器对象

val myVectorAcc = new VectorAccumulatorV2
//在spark上下文中进行注册
sc.register(myVectorAcc, "MyVectorAcc1")

留意惰性(spark2.4.0中疑似取消了，因为以下代码在spark2.4.0中测试返回了正常结果)

val accum = sc.longAccumulator
data.map { x => accum.add(x); x }
// 这里累加器仍然为0，因为没有行动action操作触发执行map操作.

鱼摆摆

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【极简spark教程】RDD编程

RDD速查表，一文看完RDD百分之九十九的常用操作
复制链接

扫一扫

专栏目录

【极简spark教程】RDD编程

入门

RDD编程指引

创建rdd集合，可以将rdd看做是spark分布式环境下的list

读取文件

RDD操作

转换transform：生成了新的RDD

行动action：汇总所有结果返回驱动程序

缓存

打印部分记录

共享变量

累加器

创建累加器

构造累加器

留意惰性(spark2.4.0中疑似取消了，因为以下代码在spark2.4.0中测试返回了正常结果)

“相关推荐”对你有帮助么？