Spark算子[13]：sortByKey、sortBy、二次排序源码实例详解

最新推荐文章于 2022-04-23 10:26:35 发布

VIP文章生命不息丶折腾不止

最新推荐文章于 2022-04-23 10:26:35 发布

阅读量3.3k

点赞数

分类专栏： spark 文章标签： spark 源码实例

本文链接：https://blog.csdn.net/leen0304/article/details/78804194

版权

sortBy是对标准的RDD进行排序。[在scala语言中，RDD与PairRDD没有太严格的界限]。
sortByKey函数是对PairRDD进行排序，也就是有Key和Value的RDD。

sortBy

源码

  /**
   * RDD.scala
   * Return this RDD sorted by the given key function.
   */
  def sortBy[K](
      f: (T) => K,
      ascending: Boolean = true,
      numPartitions: Int = this.partitions.length)
      (implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T] = withScope {
    this.keyBy[K](f)
        .sortByKey(ascending, numPartitions)
        .values
  }

该函数最多可以传三个参数：
第一个参数是一个函数，该函数的也有一个带T泛型的参数，返回类型和RDD中元素的类型是一致的；
第二个参数是ascending，从字面的意思大家应该可以猜到，是的，这参数决定排序后RDD中的元素是升序还是降序，默认是true，也就是升序；
第三个参数是numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。

从sortBy函数的实现可以看出，第一个参数是必须传入的，而后面的两个参数可以不传入。而且sortBy函数函数的实现依赖于sortByKey函数，关于sortByKey函数后面会进行说明。keyBy函数也是RDD类中进行实现的，它的主要作用就是将将传进来的每个元素作用于f(x)中，并返回tuples类型的元素，也就变成了Key-Value类型的RDD了，它的实现如下：

def keyBy[K](f: T => K): RDD[(K, T)] = withScope {
  val cleanedF = sc.clean(f)
  map(x => (cleanedF(x), x))
}

Scala版本案例1

针对scala语言的pairRDD操作

def sortBy(): Unit = {
  val conf = new SparkConf().setMaster("local").setAppName("sortBy")
  val sc = new SparkContext(conf)
  val rdd = sc.makeRDD(List(("a",0),("d",5),("d",2),("c",1),("b",2),("b",0)),4)

  // 按照tuple2的第二个元素降序排列
  val res =rdd.sortBy(_._2,false,2)
  res.foreach(x=> print(x+ " "))
}

结果：(d,5) (d,2) (b,2) (c,1) (a,0) (b,0)

Scala版本案例2

针对scala的rdd操作

def sortBy(): Unit = {
  val conf = new SparkConf().setMaster("local").setAppName("sortB

最低0.47元/天解锁文章

生命不息丶折腾不止

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark算子[13]：sortByKey、sortBy、二次排序源码实例详解

sortBy是对标准的RDD进行排序。[在scala语言中，RDD与PairRDD没有太严格的界限]。 sortByKey函数是对PairRDD进行排序，也就是有Key和Value的RDD。sortBy源码 /** * RDD.scala * Return this RDD sorted by the given key function. */ def sortBy[K]
复制链接

扫一扫