Spark中groupBy groupByKey reduceByKey的区别

最新推荐文章于 2024-02-21 11:31:29 发布

weixin_34409822

最新推荐文章于 2024-02-21 11:31:29 发布

阅读量320

点赞数

文章标签：大数据

groupBy

和SQL中groupby一样，只是后面必须结合聚合函数使用才可以。

例如：

hour.filter($"version".isin(version: _*)).groupBy($"version").agg(countDistinct($"id"), count($"id")).show()

groupByKey

对Key-Value形式的RDD的操作。

例如(取自link)：

val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "spider", "eagle"), 2)
val b = a.keyBy(_.length)//给value加上key，key为对应string的长度
b.groupByKey.collect
//结果 Array((4,ArrayBuffer(lion)), (6,ArrayBuffer(spider)), (3,ArrayBuffer(dog, cat)), (5,ArrayBuffer(tiger, eagle)))

reduceByKey

与groupByKey功能一样，只是实现不一样。本函数会先在每个分区聚合然后再进行总的统计，如图：

而groupByKey则是

因此，本函数比groupByKey节省了传播的开销，尽量少用groupByKey

参考

https://www.iteblog.com/archives/1357.html
http://blog.csdn.net/guotong1988/article/details/50556871
http://blog.cheyo.net/178.html

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34409822

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark中groupBy groupByKey reduceByKey的区别

groupBy和SQL中groupby一样，只是后面必须结合聚合函数使用才可以。例如：hour.filter($"version".isin(version: _*)).groupBy($"version").agg(countDistinct($"id"), count($"id")).show()groupByKey对Key-Value形式的RDD的操作。例如(取自link)：v...
复制链接

扫一扫