以下是Spark常用RDD算子,其具体使用方法请点击查看 1、Spark RDD算子之算子的创建 ``parallelize、makeRDD、textFile` 2、Spark RDD算子之函数操作 ``filter、map、flatMap` 3、Spark RDD算子之去重、合并 ``distinct、union、intersection、subtract、cartesian` 4、Spark RDD算子之PairRDD的创建 ``mapToPair、flatMapToPair` 5、Spark RDD算子之键值对聚合1 ``combineByKey` 6、Spark RDD算子之键值对聚合2 ``reduceByKey、foldByKey、sortByKey` 7、Spark RDD算子之键值对分组操作 ``groupByKey、cogroup` 8、Spark RDD算子之关联操作 ``join、fullOuterJoin、leftOuterJoin、rightOuterJoin、subtractByKey` 9、Spark RDD算子之常用Action算子 ``first、take、count、countByValue、reduce、aggregate、fold、top、takeOrdered、foreach` 10、Spark RDD算子之PairRDD的Action操作 ``countByKey、collectAsMap` 11、Spark RDD算子之Action保存操作 ``saveAsTextFile、saveAsSequenceFile、saveAsObjectFile、saveAsHadoopFile、saveAsHadoopDataset、saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset` 12、Spark RDD算子之RDD 分区操作 ``mapPartitions、mapPartitionsWithIndex、glom` 13、Spark RDD算子之分区操作 ``HashPartitioner、RangePartitioner、自定义分区`