spark常用RDD算子 - groupByKey

最新推荐文章于 2023-08-16 15:03:52 发布

小哇666

最新推荐文章于 2023-08-16 15:03:52 发布

阅读量1.7k

点赞数 1

分类专栏： # spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_41712271/article/details/107749540

版权

spark 专栏收录该内容

76 篇文章 0 订阅

订阅专栏

groupByKey是对单个 RDD 的数据进行分组

def groupByKey(): RDD[(K, Iterable[V])]

def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]

def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]

groupByKey会将RDD[key,value] 按照相同的key进行分组，形成RDD[key,Iterable[value]]的形式，有点类似于sql中的groupby，例如类似于mysql中的group_concat
例如这个例子，我们对学生的成绩进行分组

JavaRDD<Tuple2<String,Float>> scoreDetails = javaSparkContext.parallelize(Arrays.asList(new Tuple2("xiaoming", 75)
                , new Tuple2("xiaoming", 90)
                , new Tuple2("lihua", 95)
                , new Tuple2("lihua", 188)));

//将JavaRDD<Tuple2<String,Float>> 类型转换为 JavaPairRDD<String, Float>
JavaPairRDD<String, Float> scoreMapRDD = JavaPairRDD.fromJavaRDD(scoreDetails);

JavaPairRDD<String, Iterable<Float>> stringIterableJavaPairRDD = scoreMapRDD.groupByKey(2);

System.out.println(stringIterableJavaPairRDD.collectAsMap());
//返回的结果
//{lihua=[95, 188], xiaoming=[75, 90]}

小哇666

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
spark常用RDD算子 - groupByKey

def groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]groupByKey会将RDD[key,value] 按照相同的key进行分组，形成RDD[key,Iterable[value]]的形式，有点类似于sql中的groupby，例如类
复制链接

扫一扫