Transformation算子,action算子,产生shuffle的算子

本文详细介绍了Spark中的转换算子,包括map、filter、reduceByKey等,以及行动算子如reduce、collect和saveAsTextFile。讨论了产生shuffle的操作,如distinct和groupByKey,并提及了重分区、排序和集合操作。这些算子在大数据处理中起到关键作用,帮助用户进行数据清洗、聚合和存储。
摘要由CSDN通过智能技术生成

Transformation转换算子的官方文档方法集合包含如下:
map
filter
flatMap
mapPartitions
mapPartitionsWithIndex
sample
union
intersection
distinct
groupByKey
reduceByKey
aggregateByKey
sortByKey
join
cogroup
cartesian
pipe
coalesce
repartition
repartitionAndSortWithinPartitions

Action算子的官方文档方法集合包含如下
reduce
collect
count
first
take
takeSample
takeOrdered
saveAsTextFile
saveAsSequenceFile
saveAsObjectFile
countByKey
foreach

Spark会产生shuffle的算子
去重

distinct

聚合

reduceByKey
groupBy
groupByKey
aggregateByKey
combineByKey

排序

sortByKey
sortBy

重分区

coalesce
repartition

集合或者表操作

intersection
subtract
subtractByKey
join
leftOuterJoin

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值