如何使用Spark实现TopN的获取（描述思路或使用伪代码)

星空下的那个人影

已于 2022-05-26 19:55:07 修改

阅读量504

点赞数 1

分类专栏：大数据面试 spark 文章标签： spark

于 2022-05-26 19:47:01 首次发布

本文链接：https://blog.csdn.net/sb_jb/article/details/124990589

版权

大数据面试同时被 2 个专栏收录

87 篇文章 20 订阅

订阅专栏

spark

23 篇文章 2 订阅

订阅专栏

方法1：
a. 按照 key 对数据进行聚合（groupByKey）
b. 将 value 转换为数组，利用 scala 的 sortBy 或者 sortWith 进行排序（mapValues）
注意：当数据量太大时，会导致OOM。

val rddData1 = sparkSession.parallelize(Array(("sivela", 15),("sivela", 18),("sivela", 16),("Alice", 15),("Bob", 18)))
val rddGroup = rddData1.groupByKey()
val rddSort = rddGroup.map(line =>{
(line._1, line._2.toList.sortWith(_.toInt > _.toInt).take(1))
})
rddSort.foreach(print)

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("HotCtegoryTop10Analysis")
    val sc = new SparkContext(sparkConf)

    val rddData1 = sc.parallelize(Array(("sivela", 15),("sivela", 18),("sivela", 16),("Alice", 15),("Bob", 18)))
    val rddGroup = rddData1.groupByKey()
    val rddSort = rddGroup.mapValues(
      line => {
        line.toList.sortBy(_.toInt)(Ordering.Int.reverse).take(1)
      })
    rddSort.foreach(print)

    //  5.将转换结构后的数据根据省份进行分组
    //    (省份，[(广告A，sum),(广告B，sum),(广告C，sum)])
    val groupRDD: RDD[(String, Iterable[(String, Int)])] = newMapRDD.groupByKey()

    //  6. 将分组后的数据组内排序（降序），取前三名
    //保持key不变，对value进行操作，使用mapValues
    //降序(List)：(Ordering.Int.reverse)
    val resultRDD: RDD[(String, List[(String, Int)])] = groupRDD.mapValues(
      iter => {
        iter.toList.sortBy(_._2)(Ordering.Int.reverse).take(3)
      }
    )

方法2：
a. 取出所有的 key
b. 对 key 进行迭代，每次取出一个 key 利用 spark 的排序算子进行排序
方法3：
a. 自定义分区器，按照 key 进行分区，使不同的 key 进到不同的分区
b. 对每个分区运用 spark 的排序算子进行排序

星空下的那个人影

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
如何使用Spark实现TopN的获取（描述思路或使用伪代码)

方法1：a. 按照 key 对数据进行聚合（groupByKey）b. 将 value 转换为数组，利用 scala 的 sortBy 或者 sortWith 进行排序（mapValues）注意：当数据量太大时，会导致OOM。val rddData1 = sparkSession.parallelize(Array(("sivela", 15),("sivela", 18),("sivela", 16),("Alice", 15),("Bob", 18)))val rddGroup = rdd.
复制链接

扫一扫