Spark中sortByKey和sortBy对(key,value)数据分别根据key和value排序-CSDN博客

本文链接：https://blog.csdn.net/dai451954706/article/details/52635016

最近在用Spark分析Nginx日志，日志解析和处理完后需要根据URL的访问次数等进行排序，取得Top(10)等。

根据对Spark的学习，知道Spark中有一个sortByKey()的函数能够完成对(key,value)格式的数据进行排序，但是，很明显，它是根据key进行排序，而日志分析完了之后，一般都是(URL,Count)的格式，而我需要根据Count次数进行排序，然后取得前10个。

SortByKey()函数

上面是SortByKey函数的源码实现。显然，该函数会对原始RDD中的数据进行Shuffle操作，从而实现排序。

下面通过Spark-shell进行相关的测试：

val d1 = sc.parallelize(Array(("cc",12),("bb",32),("cc",22),("aa",18),("bb",16),("dd",16),("ee",54),("cc",1),("ff",13),("gg",68),("bb",4)))
d1.reduceByKey(_+_).sortBy(_._2,false).collect

测到的测试结果如上图所示，显然是根据Key进行了排序。但是，我的需求是对Value进行排序，折腾了很久都不能达到要求。最后在QQ群里得到了大神的帮助——使用sortBy()函数。

sortBy()函数

上图是sortBy()函数的源码，其本质也是用到了sortByKey()函数，然后通过spark-shell进行测试:

val d2 = sc.parallelize(Array(("cc",32),("bb",32),("cc",22),("aa",18),("bb",6),("dd",16),("ee",104),("cc",1),("ff",13),("gg",68),("bb",44)))
d2.sortByKey(false).collect