问题抽象
找出分组内数据的 TopN。
问题实例
找出每个城市(province)应用点击数(click)排前5的人(name)。这里假定省内每个人的点击数以及计算好了。
思路
思路: 这里的名字只是附属属性,求每个省份最高的5个点击数即可。首先按照省份分组,在组内聚合求 top 5参考 top()
算子的实现方法,使用一个有固定长度(这里即5)的优先队列,每个组内迭代将元素add进优先队列中,最终队列中的数据即为所需要的 Top5,最后将每个分区计算后的优先队列合并即最总结果。
实现:
首先构建一个固定大小的优先队列,这里使用 org.apache.spark.util.BoundedPriorityQueue
的实现,由于访问限制,这里重新写一个类:
import java.io.Serializable
import java.util.{
PriorityQueue => JPriorityQueue}
import scala.collection.JavaConverters._
import scala.collection.generic.Growable
class MyBoundedPriorityQueue[A](maxSize: Int)(implicit ord: Ordering[A])
extends Iterable[A] with Growable[A] with Serializable {
private val underlying = new JPriorityQueue[A](maxSize, ord)
override def iterator: Iterator[A] = underlying.iterator.asScala
override def size: Int = underlying.size
override def ++=(xs: TraversableOnce[A]): this.type = {
xs.foreach {
this += _ }
this
}
override def +=(elem: A): this.type = {