Spark 计算 - 实现分组求 TopN

博客详细介绍了如何使用Spark实现分组内数据的TopN计算。通过问题实例——找出每个城市的应用点击数前5的人,阐述了思路:利用固定长度的优先队列,按照省份分组并聚合求Top5。最后提供了实现代码片段,展示了计算过程。
摘要由CSDN通过智能技术生成
问题抽象

找出分组内数据的 TopN。

问题实例

找出每个城市(province)应用点击数(click)排前5的人(name)。这里假定省内每个人的点击数以及计算好了。

思路

思路: 这里的名字只是附属属性,求每个省份最高的5个点击数即可。首先按照省份分组,在组内聚合求 top 5参考 top() 算子的实现方法,使用一个有固定长度(这里即5)的优先队列,每个组内迭代将元素add进优先队列中,最终队列中的数据即为所需要的 Top5,最后将每个分区计算后的优先队列合并即最总结果。

实现:

首先构建一个固定大小的优先队列,这里使用 org.apache.spark.util.BoundedPriorityQueue 的实现,由于访问限制,这里重新写一个类:

import java.io.Serializable
import java.util.{
   PriorityQueue => JPriorityQueue}

import scala.collection.JavaConverters._
import scala.collection.generic.Growable

class MyBoundedPriorityQueue[A](maxSize: Int)(implicit ord: Ordering[A])
  extends Iterable[A] with Growable[A] with Serializable {
   

  private val underlying = new JPriorityQueue[A](maxSize, ord)

  override def iterator: Iterator[A] = underlying.iterator.asScala

  override def size: Int = underlying.size

  override def ++=(xs: TraversableOnce[A]): this.type = {
   
    xs.foreach {
    this += _ }
    this
  }

  override def +=(elem: A): this.type = {
   
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值