问题抽象
找出分组内数据的 TopN。
问题实例
找出每个城市(province)应用点击数(click)排前5的人(name)。这里假定省内每个人的点击数以及计算好了。
思路
思路: 这里的名字只是附属属性,求每个省份最高的5个点击数即可。首先按照省份分组,在组内聚合求 top 5参考 top() 算子的实现方法,使用一个有固定长度(这里即5)的优先队列,每个组内迭代将元素add进优先队列中,最终队列中的数据即为所需要的 Top5,最后将每个分区计算后的优先队列合并即最总结果。
实现:
首先构建一个固定大小的优先队列,这里使用 org.apache.spark.util.BoundedPriorityQueue 的实现,由于访问限制,这里重新写一个类:
import java.io.Serializable
import java.util.{
PriorityQueue => JPriorityQueue}
import scala.collection.JavaConverters._
import scala.collection.generic.Growable
class MyBoundedPriorityQueue[A](maxSize: Int)(implicit ord: Ordering[A])
extends Iterable[A] with Growable[A] with Serializable {
private val underlying = new JPriorityQueue[A](maxSize, ord)
override def iterator: Iterator[A] = underlying.iterator.asScala
override def size: Int = underlying.size
override def ++=(xs: TraversableOnce[A]): this.type = {
xs.foreach {
this += _ }
this
}
override def +=(elem: A): this.type = {

博客详细介绍了如何使用Spark实现分组内数据的TopN计算。通过问题实例——找出每个城市的应用点击数前5的人,阐述了思路:利用固定长度的优先队列,按照省份分组并聚合求Top5。最后提供了实现代码片段,展示了计算过程。
最低0.47元/天 解锁文章
1656

被折叠的 条评论
为什么被折叠?



