Spark常用的算子总结（5）—— groupByKey

最新推荐文章于 2023-04-28 17:21:15 发布

bajia3228

最新推荐文章于 2023-04-28 17:21:15 发布

阅读量930

点赞数

文章标签：大数据 scala

原文链接：http://www.cnblogs.com/pocahontas/p/11334579.html

版权

本文探讨了Spark中的groupByKey算子，通过一个示例展示了如何按Key进行数据分组，并对比了reduceByKey与groupByKey的区别。在处理大规模数据时，reduceByKey在性能上更优。

摘要由CSDN通过智能技术生成

按Key进行分组，

输入 List(("A",1),("B",2),("A",2),("B",3))

输出

(B,(2, 3))
(A,(1, 2))

然后对key进行个数统计

# (A,2)
# (B,2)

//省略
val arr = List(("A",1),("B",2),("A",2),("B",3))
val rdd = sc.parallelize(arr)
val groupByKeyRDD = rdd.groupByKey()
groupByKeyRDD.foreach(println)
sc.stop

# (B,CompactBuffer(2, 3))
# (A,CompactBuffer(1, 2))


# 统计key后面的数组汇总元

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bajia3228

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark常用的算子总结（5）—— groupByKey

按Key进行分组，输入List(("A",1),("B",2),("A",2),("B",3))输出(B,(2, 3))(A,(1, 2))然后对key进行个数统计# (A,2)# (B,2)//省略val arr = List(("A",1),("B",2),("A",2),("B",3))val rdd = sc...
复制链接

扫一扫