Spark常用的算子总结(5)—— groupByKey

本文探讨了Spark中的groupByKey算子,通过一个示例展示了如何按Key进行数据分组,并对比了reduceByKey与groupByKey的区别。在处理大规模数据时,reduceByKey在性能上更优。
摘要由CSDN通过智能技术生成

按Key进行分组,

输入 List(("A",1),("B",2),("A",2),("B",3))

输出 

(B,(2, 3))
(A,(1, 2))

 

 然后对key进行个数统计

# (A,2)
# (B,2)

 

 

//省略
val arr = List(("A",1),("B",2),("A",2),("B",3))
val rdd = sc.parallelize(arr)
val groupByKeyRDD = rdd.groupByKey()
groupByKeyRDD.foreach(println)
sc.stop

# (B,CompactBuffer(2, 3))
# (A,CompactBuffer(1, 2))


# 统计key后面的数组汇总元
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值