Spark系列五：Spark经典案列之使用各种方法实现自定义排序

最新推荐文章于 2020-08-17 17:14:58 发布

静静七分醉

最新推荐文章于 2020-08-17 17:14:58 发布

阅读量330

点赞数 1

分类专栏： spark Spark从入门（小白）到实战（精通啃源码）

本文链接：https://blog.csdn.net/m0_37657725/article/details/94965941

版权

该博客详细介绍了在Spark中实现自定义排序的六种方法，包括继承Ordered、只传入排序属性、使用case class、利用隐式类、元组比较规则以及不改变原有结构的排序方式。针对特定的排序规则（颜值降序，年龄升序），提供了多种解决方案。

摘要由CSDN通过智能技术生成

概述

总体需求：Array("laoduan 30 99", "laozhao 29 9999", "laozhang 28 98", "laoyang 28 99")

排序规则：首先按照颜值的降序，如果颜值相等，再按照年龄的升序。下面列举了各种排序思路。

方案汇总

方法一

建了一个user类，继承了Ordered，里面的参数是整个user,实现了Serializable，因为要进行网络传输，将所有属性全部传进来，重写compare方法，实现排序。

object CustomSort1 {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("CustomSort1").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val users= Array("laoduan 30 99", "laozhao 29 9999", "laozhang 28 98", "laoyang 28 99")  //三个属性分别是：姓名，年龄，属性。排序规则：首先按照颜值的降序，如果颜值相等，再按照年龄的升序
    val lines: RDD[String] = sc.parallelize(users)  //将Driver端的数据并行化变成RDD
    val userRDD: RDD[User] = lines.map(line => {   //切分整理数据
      val fields = line.split(" ")
      val name = fields(0)
      val age = fields(1).toInt
      val fv = fields(2).toInt
      new User(name, age, fv)
    })
    val sorted: RDD[User] = userRDD.sortBy(u => u) //将RDD里面装的User类型的数据进行排序
    val r = sorted.collect()
    println(r.toBuffer)
    sc.stop()
  }
}


class User(val name: String, val age: Int, val fv: Int) extends Ordered[User] with Serializable {

  override def compare(that: User): Int = {
    if(this.fv == that.fv) {
      this.age - that.age
    } else {
      -(this.

最低0.47元/天解锁文章

静静七分醉

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark系列五：Spark经典案列之使用各种方法实现自定义排序

目录概述方案汇总方法一方法二方法三方法四方法五方法六概述总体需求：Array("laoduan 30 99", "laozhao 29 9999", "laozhang 28 98", "laoyang 28 99")排序规则：首先按照颜值的降序，如果颜值相等，再按照年龄的升序。下面列举了各种排序思路。方案汇总方法一建了一个user类，继承了...
复制链接

扫一扫

专栏目录