spark常用RDD算子 - PairRDD的Action操作countByKey, collectAsMap

最新推荐文章于 2023-05-24 17:17:52 发布

小哇666

最新推荐文章于 2023-05-24 17:17:52 发布

阅读量383

点赞数 1

分类专栏： # spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_41712271/article/details/107760922

版权

spark 专栏收录该内容

76 篇文章 0 订阅

订阅专栏

countByKey

返回每个key的个数
def countByKey(): Map[K, Long]
以RDD{(1, 2),(2,4),(2,5), (3, 4),(3,5), (3, 6)}为例 rdd.countByKey会返回{(1,1),(2,2),(3,3)}

JavaPairRDD<Integer, Integer> rdd = javaSparkContext.parallelizePairs(Arrays.asList(new Tuple2<>(1, 2),
                new Tuple2<>(1, 4),
                new Tuple2<>(2, 5),
                new Tuple2<>(3, 4),
                new Tuple2<>(3, 5),
                new Tuple2<>(3, 6),
                new Tuple2<>(3, 5)));

Map<Integer, Long> integerLongMap = rdd.countByKey();
System.out.println(integerLongMap);
//key为1的有2个，key为3的有4个,key为2的有1个
//{1=2, 3=4, 2=1}

CollectAsMap()

返回hashMap包含所有RDD中的分片，key如果重复，后边的元素会覆盖前面的元素

JavaPairRDD<Integer, Integer> rdd = javaSparkContext.parallelizePairs(Arrays.asList(new Tuple2<>(1, 2),
                new Tuple2<>(2, 9),
                new Tuple2<>(2, 5),
                new Tuple2<>(3, 4),
                new Tuple2<>(3, 5),
                new Tuple2<>(3, 6)));
Map<Integer, Integer> integerIntegerMap = rdd.collectAsMap();
System.out.println(integerIntegerMap);
//运行返回的结果
//{2=5, 1=2, 3=6}

小哇666

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark常用RDD算子 - PairRDD的Action操作countByKey, collectAsMap

countByKey返回每个key的个数def countByKey(): Map[K, Long]以RDD{(1, 2),(2,4),(2,5), (3, 4),(3,5), (3, 6)}为例 rdd.countByKey会返回{(1,1),(2,2),(3,3)}JavaPairRDD<Integer, Integer> rdd = javaSparkContext.parallelizePairs(Arrays.asList(new Tuple2<>(1, ..
复制链接

扫一扫