spark算子总结

RDD创建操作
1)从集合创建RDD
parallelize
makeRDD
2)从外部存储创建RDD
textFile
从hdfs文件创建
从本地文件创建

从其他HDFS文件格式创建
hadoopFile
sequenceFile
objectFile
newAPIHadoopFile

从Hadoop接口API创建
hadoopRDD
newAPIHadoopRDD
比如:从HBase创建RDD

RDD基本转换操作:
1)map、flatMap、distinct
2)coalesce、repartition
3)randomSplit、glom
4)union、intersection、subtract
5)mapPartitions、mapPartitionsWithIndex
6)zip、zipPartitions
7)zipWithIndex、zipWithUniqeId

RDD键值转换操作
1)partitionBy、mapValues、flatMapValues
2)combineBy、foldByKey
3)groupByKey、reduceByKey、reduceByKeyLocally
4)cogroup、join
5)leftOuterJoin、rightOuterJoin、subtractByKey

RDD行动Action操作
1)first、count、reduce、collect
2)take、top、takeOrdered
3)aggregate、fold、lookup
4)countByKey、foreach、foreachPartition、sortBy
5)saveAsHadoopFile、saveAsHadoopDataset
6)saveAsTextFile、saveAsSequenceFile、saveeAsObjectFile
7)saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

参考大神文章:http://lxw1234.com/archives/tag/spark%E7%AE%97%E5%AD%90

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值