【笔记】java api spark 聚合函数aggregateByKey的参数说明及其用法

最新推荐文章于 2022-10-24 16:30:25 发布

eagle*man

最新推荐文章于 2022-10-24 16:30:25 发布

阅读量934

点赞数 1

分类专栏： saprk学习记录文章标签： spark aggregateByKey 聚合函数

本文链接：https://blog.csdn.net/qq735679552/article/details/88668058

版权

来做个分组统计关于aggregateByKey的用法和复杂参数记录

源码函数

<Integer> JavaPairRDD<String, Integer> org.apache.spark.api.java.JavaPairRDD.aggregateByKey(Integer zeroValue, Function2<Integer, Integer, Integer> seqFunc, Function2<Integer, Integer, Integer> combFunc)

画了个大致的aggregateByKey数据加载运算图

说明：aggregateByKey相当于是aggregate和groupByKey函数组合

下面是实验代码：

public static void main(String[] args) {
		SparkConf conf = new SparkConf();
		conf.setMaster("local[2]");
		conf.setAppName("spark-test");
		conf.set("spark.executor.memory", "500m");
		conf.set("spark.driver.memo

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

eagle*man

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【笔记】java api spark 聚合函数aggregateByKey的参数说明及其用法

来做个分组统计关于aggregateByKey的用法和复杂参数记录源码函数<Integer> JavaPairRDD<String, Integer> org.apache.spark.api.java.JavaPairRDD.aggregateByKey(Integer zeroValue, Function2<Integer, Integer, Inte...
复制链接

扫一扫