spark二次排序

最新推荐文章于 2022-07-22 15:37:35 发布

九指码农

最新推荐文章于 2022-07-22 15:37:35 发布

阅读量424

点赞数

分类专栏： spark及问题解决 scala 文章标签： spark 二次排序

本文链接：https://blog.csdn.net/qq_14950717/article/details/52862058

版权

spark及问题解决同时被 2 个专栏收录

36 篇文章 1 订阅

订阅专栏

scala

4 篇文章 0 订阅

订阅专栏

二次排序概念：
首先按照第一字段排序，然后再对第一字段相同的行按照第二字段排序，注意不能破坏第一次排序的结果。
废话不多说，直接上代码：

   val rdd = sc.makeRDD( Array(
      (20, 21), ( 50, 51), ( 50 ,52), ( 50, 53), (50, 54), (60, 51),
      (60, 53), ( 60, 52), (60, 56), (60, 57), (70 ,58), (60, 61),
      (70, 54), (70, 55), (70, 56), (70, 57), (70, 58)
    ))
    val result = rdd.sortByKey( true ).aggregateByKey(ArrayBuffer[Int]())( _:+_,_++_ ).mapValues( x => x.sortBy( -_ ))