Spark之TopN的实现，scala集合的排序和spark RDD的排序对比

最新推荐文章于 2024-05-12 23:09:15 发布

卷曲的葡萄藤

最新推荐文章于 2024-05-12 23:09:15 发布

阅读量994

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/weixin_39043567/article/details/89321973

版权

本文探讨了在处理大数据时，如何在Spark中实现TopN操作，比较了Scala集合排序和Spark RDD排序的优缺点。针对数据溢出和资源消耗问题，提出了优化方案，包括使用RDD的排序功能和缓存策略来提高效率。

摘要由CSDN通过智能技术生成

比如有原始数据

http://bigdata.bjut.edu.cn/thy

http://java.bjut.edu.cn/lmm

....等等类似的数据，最后为老师的名字，前面含有某个科目，求出某学科老师的点击量topn

方法一：思路，先对数据进行处理，获取我们需要的。组合成（（学科，老师），1）的形式在进行聚合，然后按照学科进行分组，最后进行排序。

package com.thy.spark

import java.net.URL

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object GroupFavTeacher1 {
  def main(args: Array[String]): Unit = {

    //val N  = args(0).toInt
    val conf = new SparkConf().setAppName("FavTeacher").setMaster("local[2]")
    val sc: SparkContext = new SparkContext(conf)
    val data: RDD[String] = sc.textFile("E:\\hdfs

最低0.47元/天解锁文章

卷曲的葡萄藤

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark之TopN的实现，scala集合的排序和spark RDD的排序对比

比如有原始数据http://bigdata.bjut.edu.cn/thyhttp://java.bjut.edu.cn/lmm....等等类似的数据，最后为老师的名字，前面含有某个科目，求出某学科老师的点击量topn方法一：思路，先对数据进行处理，获取我们需要的。组合成（（学科，老师），1）的形式在进行聚合，然后按照学科进行分组，最后进行排序。package ...
复制链接

扫一扫

专栏目录