Spark实现TopN计算

最新推荐文章于 2020-09-10 23:46:40 发布

动物园园长黄华杰

最新推荐文章于 2020-09-10 23:46:40 发布

阅读量1.7k

点赞数 2

分类专栏： spark Scala 大数据

Jamie

本文链接：https://blog.csdn.net/jingmin_heijie/article/details/101469777

版权

Scala 同时被 3 个专栏收录

17 篇文章 0 订阅

订阅专栏

大数据

16 篇文章 0 订阅

订阅专栏

spark

9 篇文章 0 订阅

订阅专栏

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object TopN {
    def main(args: Array[String]): Unit = {
        val topN = new SparkConf().setMaster("local[4]").setAppName("TopN")

        // 获取SparkContext
        val sc: SparkContext = new SparkContext(topN)

        // 读取当前目录下的文件
        val rdd1: RDD[String] = sc.textFile("./data/topN")

        val rdd2: RDD[(String, Int)] = rdd1.map(item => item.split(" ")(0) -> item.split(" ")(1).toInt)

        val rdd3: RDD[(String, List[Int])] = rdd2.groupByKey().map(item => item._1 -> item._2.toList.sortWith(_ > _).take(3))

        rdd3.foreach(println)

        sc.stop()
    }
}

优惠劵

动物园园长黄华杰

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark实现TopN计算

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object TopN { def main(args: Array[String]): Unit = { val topN = new SparkConf().setMaster("local[4]").se...
复制链接

扫一扫