1.sortBy
用func先对数据进行处理,按照处理后的数据比较结果排序
sortBy(func,[ascending], [numTasks])
第一个参数为以哪个参数排序,第二个为是否为正序排序,第三个参数为去值范围
2.sortByKey
在一个(K,V)的RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的(K,V)的RDD
sortByKey([ascending], [numTasks])
第一个参是是否为正序排序,第二个参数为去值范围
3.groupByKey
groupByKey(numPartition)
照key来进行分组,numPartition指的是分组之后的分区个数。
4.reduceByKey
对每一个key所对应的所有的value进行reduce操作
5.foldByKey
作用和reduceByKey一样,可以指定初始化值
foldByKey(1)(_ + _)
6.aggregateByKey
作用和foldByKey一样,可以指定初始值,先进行分区内计算,再进行跨分区计算
aggregateByKey(1)(_ + _, _ + _)