spark core 案例：分组并在组内取topN

fanghailiang2016

已于 2024-03-28 23:03:13 修改

阅读量218

点赞数

分类专栏： spark 教程文章标签： spark scala

于 2020-08-02 21:10:51 首次发布

本文链接：https://blog.csdn.net/fanghailiang2016/article/details/107750992

版权

spark 教程专栏收录该内容

19 篇文章 2 订阅

订阅专栏

输入数据：

aa 78
bb 98
aa 80
cc 98
aa 69
cc 87
bb 97
cc 86
aa 97
bb 78
bb 34
cc 85
bb 92
cc 72
bb 32
bb 23

期望输出：

(aa,List(78, 80, 97))
(bb,List(92, 97, 98))
(cc,List(86, 87, 98))

或

(aa,ArrayBuffer(78, 80, 97))
(bb,ArrayBuffer(92, 97, 98))
(cc,ArrayBuffer(86, 87, 98))

scala代码：

object GroupSortedTopN {
  def main(args: Array[String]): Unit = {
    val k = 3
    val conf = new SparkConf().setMaster("local").setAppName("GroupSortedTopnz")
    val sc = new SparkContext(conf)
    val initRdd: RDD[(String, Int)] = sc.textFile("groupbykey.txt")
      .map(_.split(" "))
      .filter(_.length == 2)
      .map(arr => (arr(0), arr(1).toInt))
    initRdd.cache()

    val resultRdd: RDD[(String, List[Int])] = initRdd.groupByKey()
      .map {
        case (item1, iter) => {
          val topKitem2 =iter
            .toList
            .sorted
            .takeRight(k)
//            .map((item1, _))
          (item1, topKitem2)
        }
      }

    val resultRdd2: RDD[(String, ArrayBuffer[Int])] = initRdd.aggregateByKey(ArrayBuffer[Int]())(
      (u, v) => {
        u += v
        u.sorted.takeRight(k)
      },
      (u1, u2) => {
        u1 ++= u2
        u1.sorted.takeRight(k)
      }
    )

    initRdd.unpersist()

    resultRdd.cache()
    resultRdd.foreachPartition(_.foreach(println))
    resultRdd.saveAsTextFile("groupByKeyResult")

    resultRdd2.cache()
    resultRdd2.foreachPartition(_.foreach(println))
    resultRdd2.saveAsTextFile("groupByKeyResult2")

    resultRdd.unpersist()
  }
}

fanghailiang2016

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
spark core 案例：分组并在组内取topN

输入数据：aa 78bb 98aa 80cc 98aa 69cc 87bb 97cc 86aa 97bb 78bb 34cc 85bb 92cc 72bb 32bb 23期望输出：(aa,78)(aa,80)(aa,97)(bb,92)(bb,97)(bb,98)(cc,86)(cc,87)(cc,98)scala代码：object GroupSortedTopN { def main(args: Array[String]):
复制链接

扫一扫