1.sortBy
1)函数签名
def sortBy[K](
f: (T) => K,
ascending: Boolean = true,
numPartitions: Int = this.partitions.length)
(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]
def sortBy[K](
f: (T) => K,
ascending: Boolean = true,
numPartitions: Int = this.partitions.length)
(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]
2)功能描述
该操作用于排序数据。在排序之前,可以将数据通过f函数进行处理,之后按照f函数处理的结果进行排序,默认为正序排列。注意:排序后新产生的RDD的分区数与原RDD的分区数一致。
3)简单案例
案例一、
sc.makeRDD(List((2, "a"), (2, "a"), (2, "a"), (2, "a"), (3, "b"), (5, "c")), 3)
.sortBy(_._1, true).collect().foreach(println)
结果
(2,a)
(2,a)
(2,a)
(2,a)
(3,b)
(5,c)
案例二、
sc.makeRDD(List((2, "a"), (2, "a"), (