spark-groupBy(2)

最新推荐文章于 2021-11-20 01:17:46 发布

LittleCookie_

最新推荐文章于 2021-11-20 01:17:46 发布

阅读量127

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/czw0919/article/details/117692128

版权

spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

需求:给数据源的数据首字母相同的分组

package com.atguigu.bigdata.spark.core.operator.transform.test

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object RDD_groupBy_02 {
  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    //  TODO 算子 -groupBy - 将数据根据指定的规则进行分组，分区默认不变，但是数据会被打乱重新组合，我们将这样的操作称之为shuffle，
    //                      极限情况下，数据可能被分在同一个分区中
    //  需求:给数据源的数据首字母相同的分组

    val rdd = sc.makeRDD(List("Hello", "Spark", "Hello", "Scala"), 2)
    val groupRDD: RDD[(Char, Iterable[String])] = rdd.groupBy(
      str => {
        str.charAt(0)
      }
    )
    groupRDD.collect().foreach(println)


    sc.stop()

  }
}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

LittleCookie_

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark-groupBy(2)

需求:给数据源的数据首字母相同的分组package com.atguigu.bigdata.spark.core.operator.transform.testimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object RDD_groupBy_02 { def main(args: Array[String]): Unit = { val sparkConf = new
复制链接

扫一扫