Action行动算子

Action行动算子

  • 概念:Action类算子也是一类算子(函数)叫做行动算子,如foreach,collect,count等。Transformations类算子是延迟执行,Action类算子是触发执行一个application应用程序中有几个Action类算子执行,就有几个job运行

  • 常用算子:

count: 返回数据集中的元素数。会在结果计算完成后回收到Driver端

take(n): 返回一个包含数据集前n个元素的集合

first: first=take(1),返回数据集中的第一个元素

foreach: 循环遍历数据集中的每个元素,运行相应的逻辑

collect: 将计算结果回收到Driver端

foreachPartition: 遍历的数据是每个partition的数据。

countByKey: 作用到K,V格式的RDD上,根据Key计数相同Key的数据集元素。

countByValue: 根据数据集每个元素相同的内容来计数。返回相同内容的元素对应的条数。

reduce: 根据聚合逻辑聚合数据集中的每个元素。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apache Spark是一个强大的分布式计算框架,它提供了易用且高效的API进行大数据处理。Spark的核心抽象是"数据集"(Dataset)和"RDD"(Resilient Distributed Dataset),其中"行动算子"(Action Operator)是执行这些操作的关键组件。 行动算子Spark中用于从数据集中创建结果的那些操作,它们分为两类: 1. **转换动作(Transformation Operations)**:这些不直接产生输出,而是对数据集进行处理,生成一个新的数据集,如`map()`、`filter()`、`reduce()`等。例如,`map()`会应用一个函数到数据集中的每个元素上,生成一个新的元素序列;`filter()`则基于给定的条件选择数据集中的元素。 2. **行动动作(Action Operations)**:这些是真正的“行动”,它们会产生结果并立即返回给用户。常见的行动算子有: - `collect()`:将整个数据集收集到内存中,适合小规模数据或者验证操作结果。 - `count()`:返回数据集中元素的数量。 - `first()`:返回数据集的第一个元素。 - `reduce()`或`fold()`:聚合数据集中的所有元素。 - `sum()`、`max()`、`min()`:对数值数据集进行简单统计。 - `saveAsTextFile()` 或 `write()`:将数据集保存到文件系统。 行动算子的特点是它们会在后台启动一个任务,该任务会对数据进行计算,并最终返回结果。这些操作通常会触发数据的一次性计算,而不是多次迭代。如果你想要多次查看中间结果,应该使用转换动作,然后配合`cache()`来缓存结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值