RDD算子

最新推荐文章于 2024-09-11 18:01:31 发布

kang：）

最新推荐文章于 2024-09-11 18:01:31 发布

阅读量259

点赞数 3

文章标签： python java php

本文链接：https://blog.csdn.net/m0_64823626/article/details/139844248

版权

RDD被创建后是只读的，不允许修改。Spark提供了丰富的用于操作RDD的方法，这些方法被称为算子。一个创建完成的RDD只支持两种算子：转化（Transformation）算子和行动（Action）算子。

转化算子
转化算子负责对RDD中的数据进行计算并转化为新的RDD。Spark中的所有转化算子都是惰性的，因为它们不会立即计算结果，而只是记住对某个RDD的具体操作过程，直到遇到行动算子才会与其一起执行。

map()算子
map()是一种转化算子，它接收一个函数作为参数，并把这个函数应用于RDD的每个元素，最后将函数的返回结果作为结果RDD中对应元素的值。

Spark 算子的详细使用方法 Spark 算子是 Spark 框架中最基本的组成部分，它们是 Spark 程序的主要构建块。Spark 算子可以分为两类：Transformation 变换/转换算子和 Action 行动算子。 Transformation 变换/转换算子并不触发提交作业，完成作业中间过程处理。Action 行动算子会触发 SparkContext 提交 Job 作业。 Transformation 变换/转换算子可以进一步细分为三类：Value 数据类型的 Transformation 算子、Key-Value 数据类型的 Transfromation 算子和 Action 算子。Value 数据类型的 Transformation 算子针对处理的数据项是 Value 型的数据。Key-Value 数据类型的 Transfromation 算子针对处理的数据项是 Key-Value 型的数据对。 RDD（弹性分布式数据集）是 Spark 框架中的一种数据结构。RDD 类内存储一个 Partition 列表。每个 Partition 对象都包含一个 index 成员，通过 RDD 编号 + index 就能从唯一确定分区的 Block 编号，持久化的 RDD 就能通过这个 Block 编号从存储介质中获得对应的分区数据。 Transformation 算子包括 map、flatMap、filter、reduceByKey 等。map 算子应用函数到 RDD 的每一个元素，并返回结果 RDD。flatMap 算子首先进行 map 操作，最后将每一个分区中的 RDD 合并成一个 RDD。filter 算子用来过滤数据，删除不需要的数据。reduceByKey 算子用来聚合数据，计算每个键对应的值的和。 Action 算子包括 collect、count、first、take 等。collect 算子将 RDD 中的数据收集到 Driver 端。count 算子统计 RDD 中的元素个数。first 算子返回 RDD 中的第一个元素。take 算子返回 RDD 中的前 n 个元素。在 Spark 编程中，我们可以使用 Transformation 算子来处理数据，然后使用 Action 算子来触发作业提交。例如，我们可以使用 map 算子将数据转换为所需的格式，然后使用 collect 算子将数据收集到 Driver 端。 Spark 算子的使用方法可以分为以下步骤： 1. 创建 RDD：使用文本文件、数据库或其他数据源创建 RDD。 2. 使用 Transformation 算子处理数据：使用 map、flatMap、filter 等算子来处理数据