Spark RDD的方式求TopN

最新推荐文章于 2022-11-17 11:04:50 发布

jim8973

最新推荐文章于 2022-11-17 11:04:50 发布

阅读量500

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/jim8973/article/details/105210919

版权

spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

数据

www.baidu.com,url5
www.baidu.com,url5
www.baidu.com,url5
www.baidu.com,url5
www.baidu.com,url5
www.google.com,url8
www.google.com,url2
www.google.com,url1
www.twitter.com,url10
www.twitter.com,url10
www.twitter.com,url10
www.twitter.com,url10

方式一

 val lines = sc.textFile("/ruozedata-spark-core/topn/site.log")
 val topN = 2;
 val rdd = lines.map(x=>{
      val splits = x.split(",")
      val domain = splits(0)
      val url = splits(1)
      ((domain,url),1)
    }).reduceByKey(_+_).groupBy(_._1._1).mapValues(x=> {
      /**
        * toList容易OOM,建议
        */
      x.toList.sortBy(-_._2).map(x => (x._1._2, x._2))
    }).take(topN)

其中直接x.toList容易引起OOM

方式二

val lines = sc.textFile("/ruozedata-spark-core/topn/site.log")
val processRDD = lines.map(x => {
      val splits = x.split(",")
      val domain = splits(0)
      val url = splits(1)
      ((domain, url), 1)
})
val domains = processRDD.map(_._1._1).distinct().collect()

domains.foreach(x => {
   processRDD.filter(_._1._1 == x).reduceByKey(_ + _)
        .sortBy(-_._2).take(topN)
})

在这里插入图片描述
虽然做了distinct,但是域名若果多了，UI还是会爆掉(sortBy会很多)

方式三：使用分区

class TopnPartitioner(domains:Array[String]) extends Partitioner{
  val map = mutable.HashMap[String,Int]()

  for(i <- 0 until(domains.length)){
    map(domains(i)) = i
  }

  override def numPartitions: Int = domains.length

  override def getPartition(key: Any): Int = {
    val domain = key.asInstanceOf[(String,String)]._1
    map(domain)
  }
}

val topN = 2;
val lines = sc.textFile("/ruozedata-spark-core/topn/site.log")
val processRDD = lines.map(x => {
      val splits = x.split(",")
      val domain = splits(0)
      val url = splits(1)
      ((domain, url), 1)
 })
val domains = processRDD.map(_._1._1).distinct().collect()
val result = processRDD.reduceByKey(new TopnPartitioner(domains),_+_)
result.mapPartitions(partition => {
      partition.toList.sortBy(-_._2).take(topN).iterator
    }).collect()

在这里插入图片描述
UI的情况有所好转,，但是因为take需要将所有数据都拉取到Driver上才能完成操作
方式四：较优的解决方案

val topN = 2;
val lines = sc.textFile("/ruozedata-spark-core/topn/site.log")
val processRDD = lines.map(x => {
   val splits = x.split(",")
   val domain = splits(0)
   val url = splits(1)
  ((domain, url), 1)
})

val domains = processRDD.map(_._1._1).distinct().collect()
val result = processRDD.reduceByKey(new TopnPartitioner(domains),_+_)
	result.mapPartitions(partition => {
      var treeSet = new mutable.TreeSet[((String,String),Int)]()(new TopOrdering())
      partition.foreach(x=>{
        treeSet.add(x)
        if(treeSet.size > topN) {
          treeSet = treeSet.dropRight(1)
        }
      })
      treeSet.iterator
})

jim8973

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD的方式求TopN

数据www.baidu.com,url5www.baidu.com,url5www.baidu.com,url5www.baidu.com,url5www.baidu.com,url5www.google.com,url8www.google.com,url2www.google.com,url1www.twitter.com,url10www.twitter.com,url1...
复制链接

扫一扫