spark分组排序二

最新推荐文章于 2022-06-15 17:04:33 发布

huyang0101

最新推荐文章于 2022-06-15 17:04:33 发布

阅读量1.3k

点赞数

分类专栏： spark二次排序文章标签： spark 大数据

本文链接：https://blog.csdn.net/huyang0101/article/details/122003166

版权

一、前言

在sarpk分组排序一一文中最后提到，此方案可能会导致内存溢出。因此，写了一个优化的demo，先上代码

二、源码

import org.apache.spark.{
   Partitioner, SparkConf, SparkContext}

object Demo2 {
   
  def main(args: Array[String]): Unit = {
   
    val sc = new SparkContext(new SparkConf().setMaster("local[*]").setAppName("demo2"))

    val rdd1 = sc.textFile("./data/sku")

    // 2. 转换数据格式,字符串变元组: cate,sku => ((cate,sku), 1)
    val rdd2 = rdd1.map(line=>{
   
      ((line.split(",")(0), line.split

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

huyang0101

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark分组排序二

文章目录前言源码总结前言在[sarpk分组排序一](https://editor.csdn.net/md/?articleId=121964235)一文中最后提到，此方案可能会导致内存溢出。源码import org.apache.spark.{Partitioner, SparkConf, SparkContext}object Demo2 { def main(args: Array[String]): Unit = { val sc = new SparkContext(
复制链接

扫一扫