Spark sortBy

塞上江南o

已于 2023-02-05 20:36:40 修改

阅读量324

点赞数

分类专栏： Spark 文章标签： spark

于 2020-11-29 14:33:59 首次发布

本文链接：https://blog.csdn.net/qq_43192537/article/details/110312178

版权

Spark 专栏收录该内容

44 篇文章 3 订阅

订阅专栏

Saprk sortBy功能

排序
参数 ascending: Boolean = true（升序）
参数 numPartitions: Int = this.partitions.length（分区）

案例演示

需求：对List(1, 4, 3, 2, 5)升序和降序排序，然后输出到控制台

package com.xcu.bigdata.spark.core.pg02_rdd.pg022_rdd_transform

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
 * @Package : com.xcu.bigdata.spark.core.pg02_rdd.pg022_rdd_transform
 * @Desc : 排序
 */
object Spark10_SortBy {
  def main(args: Array[String]): Unit = {
    //创建配置文件
    val conf: SparkConf = new SparkConf().setAppName("").setMaster("local[*]")
    //创建SparkContext,该对象是提交的入口
    val sc = new SparkContext(conf)
    //创建RDD
    val rdd: RDD[Int] = sc.parallelize(List(1, 4, 3, 2, 5))
    
    //升序排序
    rdd.sortBy(x => x).collect().foreach(println)
    println("*******************************")
    //降序排序
    rdd.sortBy(x => x, false).collect().foreach(println)
    
    //释放资源
    sc.stop()
  }
}

案例2：对k-v形式的数据排序

    //创建RDD
    val rdd: RDD[(String, Int)] = sc.makeRDD(List(("zs", 22), ("lisi", 33)))
    // 按照value进行降序排序
    val resRDD: RDD[(String, Int)] = rdd.sortBy(_._2, false)
    // 按照key进行降序排序
    val resRDD1: RDD[(String, Int)] = rdd.sortBy(_._1, false)
    resRDD.collect().foreach(println)
    println("*************************")
    resRDD1.collect().foreach(println)

结果：

(lisi,33)
(zs,22)
*************************
(zs,22)
(lisi,33)

案例3：对对象进行排序

object Test {
  def main(args: Array[String]): Unit = {
    //创建配置文件
    val conf: SparkConf = new SparkConf().setAppName("Spark01_Cache").setMaster("local[*]")
    //创建SparkContext,该对象是提交的入口
    val sc = new SparkContext(conf)
    //创建RDD
    val listStudent = List(Student("zs", 22), Student("li", 44), Student("li", 33))
    val rdd: RDD[Student] = sc.makeRDD(listStudent)
    // 按照name进行升序排序
    val resRDD: RDD[Student] = rdd.sortBy(stu => (stu.name), true)
    resRDD.collect().foreach(println)
    // 按照name进行升序排序,name相同时，在按照age升序排序
    println("****************")
    val resRDD1: RDD[Student] = rdd.sortBy(stu => (stu.name, stu.age), true)
    resRDD1.collect().foreach(println)
    // 按照name进行升序排序,name相同时，在按照age降序排序（这种方式只有自定义排序规则了）
  }
}

case class Student(name: String, age: Int)