行动算子（知识）

依年南台

于 2025-05-13 15:11:42 发布

阅读量387

点赞数 5

文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/2301_82309776/article/details/147925276

版权

行动算子
行动算子（Action）是一种触发 RDD 计算的操作。与转换算子（Transformation）不同，行动算子会返回一个结果给驱动程序（Driver Program），或者将结果写入外部存储系统。行动算子是触发 Spark 计算的“触发点”，因为 Spark 的 RDD 是懒惰计算的，只有在执行行动算子时，才会真正开始计算。

下面介绍集中常见的行动算子。

1. collect算子
作用：用于将分布式存储在集群中各个节点上的 RDD 元素收集到驱动程序（Driver Program）中，并以数组的形式返回。这意味着该算子会触发 Spark 作业的执行，将之前的转换操作进行实际计算，并将结果汇总到驱动程序所在的节点。

格式：def collect(): Array[T]

参数说明：该算子没有参数。

返回值：返回一个包含 RDD 中所有元素的数组，数组元素的类型与 RDD 中元素的类型一致。

示例代码

object CollectExample {

def main(args: Array[String]): Unit = {

// 省略 ...

// 创建一个包含整数的 RDD

val numbers = sc.parallelize(1 to 10)

// 使用 collect 算子将 RDD 中的元素收集到驱动程序

val collectedNumbers = numbers.collect()

// 输出收集到的元素

collectedNumbers.foreach(println)

// 停止 SparkContext

sc.stop()

}}

2.reduce算子
作用：reduce 用于对 RDD 中的元素进行全局聚合操作，例如计算 RDD 中所有元素的总和、最大值、最小值等。在分布式计算环境中，reduce 会先在每个分区内进行局部聚合，然后将各个分区的结果进行全局聚合，最终得到一个单一的结果。

格式

def reduce(func: (T, T) => T): T

参数说明：

func: (T, T) => T：这是一个二元函数，用于定义如何对 RDD 中的元素进行聚合。函数接收两个类型为 T 的元素，返回一个类型为 T 的结果。例如，若要对 RDD 中的整数进行求和，func 可以是 (x, y) => x + y。

返回值：返回一个单一的值，其类型与 RDD 中元素的类型相同。

示例代码

以下是一个使用 reduce 计算 RDD 中所有整数之和的示例：

object ReduceExample {

def main(args: Array[String]): Unit = {

// 省略...

// 创建一个包含整数的 RDD

val numbers = sc.parallelize(1 to 10)

// 使用 reduce 算子计算所有元素的总和

val sum = numbers.reduce(_ + _)

// 输出结果

println(s"RDD 中所有元素的总和为: $sum")

// 停止 SparkContext

sc.stop()

}}

3.count算子
作用：count 是 Spark 中的一个行动算子，用于统计 RDD 中元素的数量。它会触发 Spark 作业的实际执行，对 RDD 中的所有元素进行计数，并将最终的计数结果返回给驱动程序。例如在进行数据验证、抽样或者评估数据处理任务的复杂度时，都可能需要知道 RDD 中元素的数量

格式

def count(): Long

参数说明：该算子没有参数。

返回值：返回一个 Long 类型的值，表示 RDD 中元素的数量。

4. 示例代码

import org.apache.spark.{SparkConf, SparkContext}

object CountExample {

def main(args: Array[String]): Unit = {

// 创建 SparkConf 对象

val conf = new SparkConf().setAppName("CountExample").setMaster("local[*]")

// 创建 SparkContext 对象

val sc = new SparkContext(conf)