Spark 计算 - 实现分组求 TopN

最新推荐文章于 2024-08-13 16:48:41 发布

以浪为码

最新推荐文章于 2024-08-13 16:48:41 发布

阅读量1.2k

点赞数

分类专栏： Spark-例子们文章标签： Spark 计算分组 TopN

本文链接：https://blog.csdn.net/u013054888/article/details/89515172

版权

博客详细介绍了如何使用Spark实现分组内数据的TopN计算。通过问题实例——找出每个城市的应用点击数前5的人，阐述了思路：利用固定长度的优先队列，按照省份分组并聚合求Top5。最后提供了实现代码片段，展示了计算过程。

摘要由CSDN通过智能技术生成

问题抽象

找出分组内数据的 TopN。

问题实例

找出每个城市(province)应用点击数(click)排前5的人(name)。这里假定省内每个人的点击数以及计算好了。

思路

思路: 这里的名字只是附属属性，求每个省份最高的5个点击数即可。首先按照省份分组，在组内聚合求 top 5参考 top() 算子的实现方法，使用一个有固定长度（这里即5）的优先队列，每个组内迭代将元素add进优先队列中，最终队列中的数据即为所需要的 Top5，最后将每个分区计算后的优先队列合并即最总结果。

实现：

首先构建一个固定大小的优先队列，这里使用 org.apache.spark.util.BoundedPriorityQueue 的实现，由于访问限制，这里重新写一个类：

import java.io.Serializable
import java.util.{
   PriorityQueue => JPriorityQueue}

import scala.collection.JavaConverters._
import scala.collection.generic.Growable

class MyBoundedPriorityQueue[A](maxSize: Int)(implicit ord: Ordering[A])
  extends Iterable[A] with Growable[A] with Serializable {
   

  private val underlying = new JPriorityQueue[A](maxSize, ord)

  override def iterator: Iterator[A] = underlying.iterator.asScala

  override def size: Int = underlying.size

  override def ++=(xs: TraversableOnce[A]): this.type = {
   
    xs.foreach {
    this += _ }
    this
  }

  override def +=(elem: A): this.type = {