Spark RDD算子(七) groupByKey、cogroup

最新推荐文章于 2021-09-20 08:50:21 发布

习惯de味道

最新推荐文章于 2021-09-20 08:50:21 发布

阅读量146

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/timicai/article/details/109611614

版权

本文详细介绍了Spark中的两个关键算子——groupByKey和cogroup。groupByKey用于将相同key的元素聚合，返回结果为RDD[key, Iterable[value]]，类似于SQL的GROUP BY操作，但不建议在大规模数据中直接使用，因为可能会导致性能问题，推荐使用reduceByKey或combineByKey进行优化。cogroup则是对具有相同键的多个RDD进行分组，提供了一种同时处理多个RDD中相同键值的方法。" 114154618,10536023,Java利用高德API实现经纬度到地理位置转换,"['Java开发', '地图API', '地理编码']

摘要由CSDN通过智能技术生成

一、groupByKey

groupByKey会将RDD[key,value] 按照相同的key进行分组，形成RDD[key,Iterable[value]]的形式，有点类似于sql中的groupby
groupByKey不能传算法，消耗性能，优化尽量使用reduceByKey或combineByKey

例：对学生的成绩进行分组

scala版本

val conf=new SparkConf().setMaster("local[2]").setAppName("groupby")
val sc=new SparkContext(conf)

val rdd=sc.makeRDD(List(("张三",97),("张三",87),
  ("李四",97),("李四",99),("小罗",100)))

val scoreGroupRdd = rdd.groupByKey()
//姓名,(分数,分数)的元组
scoreGroupRdd.collect.foreach(println)
//姓名,分数
scoreGroupRdd.collect.foreach(x=> {
   
  val name=x._1
  val scoreDetail=x._2
  scoreDetail.foreach(scoreDetail=>println(name,scoreDetail))
})

java版本

SparkConf conf=new SparkConf().setMaster("local[2]").setAppName("groupbyjava");
JavaSparkContext sc=new JavaSparkContext(conf);

//将JavaRDD<Tuple2<String,Float>> 类型转换为 JavaPairRDD<String, Float>
JavaPairRDD<String, Float> scoreMapRdd = JavaPairRDD.fromJavaRDD(scoreRdd);
JavaPairRDD<String, Iterable<Float>> scoreByKeyRdd = scoreMapRdd.groupByKey();
Map<

最低0.47元/天解锁文章

习惯de味道

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD算子(七) groupByKey、cogroup

目录一、groupByKey二、cogroup一、groupByKeygroupByKey会将RDD[key,value] 按照相同的key进行分组，形成RDD[key,Iterable[value]]的形式，有点类似于sql中的groupbygroupByKey不能传算法，消耗性能，优化尽量使用reduceByKey或combineByKey例：对学生的成绩进行分组scala版本val conf=new SparkConf().setMaster("local[2]").setAppName
复制链接

扫一扫

专栏目录