《零基础入门Spark》学习笔记 Day 02

RDD常用算子

算子类型分为Transformations和Actions

一、Transformations(转换算子)

Transformation操作并不会触发真正的计算,只会建立RDD间的关系图

1、数据转换:map、mapPartiions、mapPartiionsWithIndex、flatMap、filter

2、数据聚合:groupByKey、sortByKey、reduceByKey、aggregateByKey、combineByKey

3、数据整合:union、intersection、join、cogroup、cartesian、substract

4、数据整理:sample、distinct

5、数据分布:coalesce、repartion、repartitionAndSortWithinPartitions

二、Actions(执行算子)

Actions操作代表一次计算的结束,不再产生新的 RDD,将结果返回到Driver程序或者输出到外部

1、数据收集:collect、first、take、takeSample、takeOrdered、count、countByKey、countByValue

2、数据持久化:saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

3、数据遍历:foreach

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值