[Spark应用]-- 实现分组取topN

最新推荐文章于 2022-11-17 11:04:50 发布

往事随风ing

最新推荐文章于 2022-11-17 11:04:50 发布

阅读量5.3k

点赞数 2

分类专栏： Spark 文章标签： spark scala

本文链接：https://blog.csdn.net/high2011/article/details/51584617

版权

Spark 专栏收录该内容

133 篇文章 10 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍如何在Spark中使用Scala实现数据分组后，每个分组内取出TopN条记录的方法，涵盖文本格式说明及核心代码展示。

摘要由CSDN通过智能技术生成

一、文本格式

class1 90
class2 56
class1 87
class1 76
class2 88
class1 95
class1 74
class2 87
class2 67
class2 77

二、直接献上代码

package com.scala



import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
/**
 * scala版本的groupTopN
 */
object GroupTopN {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("groupByTopN").setMaster("local[1]")
    //获取context
    val sc = new SparkContext(conf)
    //加载到内存RDD
    val scores = sc.textFile("score.txt", 1)
    //转换成为kv格式，方便分组操作
    val scoresMap = scores.map(x => {
      val al = x.split(" ")
      (al(0), al(

了解本专栏