spark实战demo-二次排序

最新推荐文章于 2024-06-03 09:52:57 发布

小手追梦

最新推荐文章于 2024-06-03 09:52:57 发布

阅读量129

点赞数

分类专栏： hadoop实战

本文链接：https://blog.csdn.net/epitomizelu/article/details/118107229

版权

hadoop实战专栏收录该内容

137 篇文章 6 订阅

订阅专栏

package interview

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object TwoSort {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf()
      .setMaster("local[*]")
      .setAppName(this.getClass.getCanonicalName)
      // 要实现全局排序，reduce端的并行度只能为1
      .set("spark.default.parallelism","1")
      .set("spark.sql.shuffle.partitions","1")

    val sc = new SparkContext(conf)

    val nums: RDD[String] = sc.textFile("data/input/twosorts.txt")
    val twoSortedRDD: RDD[(Int, Int)] = nums.map(line => {
      val nums: Array[String] = line.split(" ")
      (Integer.parseInt(nums(0)), Integer.parseInt(nums(1)))
    })
      // 注意要先分组，后排序
      .groupByKey()
      .sortByKey(true)
      .map(kv => {
        (kv._1, kv._2.toList.sortWith(_ > _))
      })
      .flatMap(kv => {
        kv._2.map(v => kv._1 -> v)
      })

    twoSortedRDD.foreach(println)

    sc.stop()
  }
}

数据：

小手追梦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
spark实战demo-二次排序

package interviewimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object TwoSort { def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkConf() .setMaster("local[*]") .setAppName(this.g
复制链接

扫一扫