如何使用Spark实现TopN的获取(描述思路或使用伪代码)

  1. 方法1:
    a. 按照 key 对数据进行聚合(groupByKey)
    b. 将 value 转换为数组,利用 scala 的 sortBy 或者 sortWith 进行排序(mapValues)
    注意:当数据量太大时,会导致OOM。
val rddData1 = sparkSession.parallelize(Array(("sivela", 15),("sivela", 18),("sivela", 16),("Alice", 15),("Bob", 18)))
val rddGroup = rddData1.groupByKey()
val rddSort = rddGroup.map(line =>{
(line._1, line._2.toList.sortWith(_.toInt > _.toInt).take(1))
})
rddSort.foreach(print)
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("HotCtegoryTop10Analysis")
    val sc = new SparkContext(sparkConf)

    val rddData1 = sc.parallelize(Array(("sivela", 15),("sivela", 18),("sivela", 16),("Alice", 15),("Bob", 18)))
    val rddGroup = rddData1.groupByKey()
    val rddSort = rddGroup.mapValues(
      line => {
        line.toList.sortBy(_.toInt)(Ordering.Int.reverse).take(1)
      })
    rddSort.foreach(print)
    //  5.将转换结构后的数据根据省份进行分组
    //    (省份,[(广告A,sum),(广告B,sum),(广告C,sum)])
    val groupRDD: RDD[(String, Iterable[(String, Int)])] = newMapRDD.groupByKey()

    //  6. 将分组后的数据组内排序(降序),取前三名
    //保持key不变,对value进行操作,使用mapValues
    //降序(List):(Ordering.Int.reverse)
    val resultRDD: RDD[(String, List[(String, Int)])] = groupRDD.mapValues(
      iter => {
        iter.toList.sortBy(_._2)(Ordering.Int.reverse).take(3)
      }
    )
  1. 方法2:
    a. 取出所有的 key
    b. 对 key 进行迭代,每次取出一个 key 利用 spark 的排序算子进行排序
  2. 方法3:
    a. 自定义分区器,按照 key 进行分区,使不同的 key 进到不同的分区
    b. 对每个分区运用 spark 的排序算子进行排序
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值