RDD常用算子
算子类型分为Transformations和Actions
一、Transformations(转换算子)
Transformation操作并不会触发真正的计算,只会建立RDD间的关系图
1、数据转换:map、mapPartiions、mapPartiionsWithIndex、flatMap、filter
2、数据聚合:groupByKey、sortByKey、reduceByKey、aggregateByKey、combineByKey
3、数据整合:union、intersection、join、cogroup、cartesian、substract
4、数据整理:sample、distinct
5、数据分布:coalesce、repartion、repartitionAndSortWithinPartitions
二、Actions(执行算子)
Actions操作代表一次计算的结束,不再产生新的 RDD,将结果返回到Driver程序或者输出到外部
1、数据收集:collect、first、take、takeSample、takeOrdered、count、countByKey、countByValue
2、数据持久化:saveAsTextFile、saveAsSequenceFile、saveAsObjectFile
3、数据遍历:foreach