Spark排序之SortBy

最新推荐文章于 2023-12-06 07:40:44 发布

haijiege

最新推荐文章于 2023-12-06 07:40:44 发布

阅读量4.5k

点赞数 1

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/haijiege/article/details/80938709

版权

Spark 专栏收录该内容

6 篇文章

订阅专栏

sortBy函数源码：接收三个参数，第一个参数必须，第二个和第三个参数非必要

def sortBy[K](

f: (T) => K,

ascending: Boolean = true,

numPartitions: Int = this.partitions.length)

(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T] = withScope {

this.keyBy[K](f)

.sortByKey(ascending, numPartitions)

.values

}

1、例子1：按照value进行降序排序

 
    
         package  
         com.test.spark 
        
 
         import  
         org.apache.spark.{SparkConf, SparkContext} 
        

            
        
 
         /** 
        
 
            
         * @author admin 
        
 
            
         * SortBy是SortByKey的增强版 
        
 
            
         * 按照value进行排序 
        
 
            
         */ 
        
 
         object  
         SparkSortByApplication { 
        

            
        
 
            
         def  
         main(args 
         :  
         Array[String]) 
         :  
         Unit  
         =  
         { 
        
 
              
         val  
         conf  
         =  
         new  
         SparkConf().setAppName( 
         "SortSecond" 
         ).setMaster( 
         "local[1]" 
         ) 
        
 
              
         val  
         sc  
         =  
         new  
         SparkContext(conf) 
        
 
              
         val  
         datas  
         =  
         sc.parallelize(Array(( 
         "cc" 
         , 
         12 
         ),( 
         "bb" 
         , 
         32 
         ),( 
         "cc" 
         , 
         22 
         ),( 
         "aa" 
         , 
         18 
         ),( 
         "bb" 
         , 
         16 
         ),( 
         "dd" 
         , 
         16 
         ),( 
         "ee" 
         , 
         54 
         ),( 
         "cc" 
         , 
         1 
         ),( 
         "ff" 
         , 
         13 
         ),( 
         "gg" 
         , 
         32 
         ),( 
         "bb" 
         , 
         4 
         ))) 
        
 
              
         // 统计key出现的次数 
        
 
              
         val  
         counts  
         =  
         datas.reduceByKey( 
         _ 
         + 
         _ 
         ) 
        
 
              
         // 按照value进行降序排序 
        
 
              
         val  
         sorts  
         =  
         counts.sortBy( 
         _ 
         . 
         _ 
         2 
         , 
         false 
         ) 
        
 
              
         sorts.collect().foreach(println) 
         < 
         br 
         >     
         sc.stop() 
        
 
            
         } 
        
 
             
        
 
         } 
        
 
  

输出结果：

(ee,54)
(bb,52)
(cc,35)
(gg,32)
(aa,18)
(dd,16)
(ff,13)

2、例子2：先按照第一个元素升序排序，如果第一个元素相同，再进行第三个元素进行升序排序

 
         package  
         com.sudiyi.spark 
        
         import  
         org.apache.spark.{SparkConf, SparkContext} 
        
         /** 
        
         * @author xubiao 
        
         * SortBy是SortByKey的增强版 
        
         * 先按照第一个，再按照第三个元素进行升序排序 
        
         */ 
        
         object  
         SparkSortByApplication { 
        
         def  
         main(args 
         :  
         Array[String]) 
         :  
         Unit  
         =  
         {

 
    
              
         val  
         conf  
         =  
         new  
         SparkConf().setAppName( 
         "SortSecond" 
         ).setMaster( 
         "local[1]" 
         ) 
        
 
              
         val  
         sc  
         =  
         new  
         SparkContext(conf) 
        
 
              
         val  
         arr  
         =  
         Array(( 
         1 
         ,  
         6 
         ,  
         3 
         ), ( 
         2 
         ,  
         3 
         ,  
         3 
         ), ( 
         1 
         ,  
         1 
         ,  
         2 
         ), ( 
         1 
         ,  
         3 
         ,  
         5 
         ), ( 
         2 
         ,  
         1 
         ,  
         2 
         )) 
        
 
              
         val  
         datas 
         2  
         =  
         sc.parallelize(arr) 
        
 
              
         val  
         sorts 
         2  
         =  
         datas 
         2 
         .sortBy(e  
         = 
         > (e. 
         _ 
         1 
         ,e. 
         _ 
         2 
         )) 
        
 
              
         sorts 
         2 
         .collect().foreach(println) 
        

            
        
 
              
         sc.stop() 
        

            
        
 
            
         } 
        

            
        
 
         }