来做个分组统计关于aggregateByKey的用法和复杂参数记录
源码函数
<Integer> JavaPairRDD<String, Integer> org.apache.spark.api.java.JavaPairRDD.aggregateByKey(Integer zeroValue, Function2<Integer, Integer, Integer> seqFunc, Function2<Integer, Integer, Integer> combFunc)
画了个大致的aggregateByKey数据加载运算图
说明:aggregateByKey相当于是aggregate和groupByKey函数组合
下面是实验代码:
public static void main(String[] args) {
SparkConf conf = new SparkConf();
conf.setMaster("local[2]");
conf.setAppName("spark-test");
conf.set("spark.executor.memory", "500m");
conf.set("spark.driver.memo