spark RDD算子（三） distinct，union，intersection，subtract，cartesian

最新推荐文章于 2021-11-26 13:35:17 发布

屡傻不改

最新推荐文章于 2021-11-26 13:35:17 发布

阅读量272

点赞数 1

分类专栏： Spark 文章标签： spark Spark RDD

本文链接：https://blog.csdn.net/qianchun22/article/details/109514917

版权

本文介绍了Spark RDD的五个重要算子：distinct用于去除重复元素，但操作代价高；union合并两个RDD；intersection计算交集，同样涉及混洗；subtract获取只在第一个RDD中出现的元素，不考虑重复；cartesian则计算两个RDD的笛卡尔积，开销较大。各算子提供了Scala和Java版本的实现。

摘要由CSDN通过智能技术生成

一、distinct

distinct用于去重，我们生成的RDD可能有重复的元素，使用distinct方法可以去掉重复的元素, 不过此方法涉及到混洗，操作开销很大

scala版本

val conf = new SparkConf().setMaster("local[3]").setAppName("rdddemo")
val sc = SparkContext.getOrCreate(conf)

println("-----------distinct算子---------------")
val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9,9,2,6))
val rdd2 = rdd1.distinct
println("rdd1的分区数:"+rdd1.partitions.length)
println("rdd2的分区数:"+rdd2.partitions.length)
rdd2.collect.foreach(println)


val rdd3 = rdd1.distinct(2)
println("rdd3的分区数:"+rdd3.partitions.length)

在这里插入图片描述

Java版本

List<String> strings = Arrays.asList("aa", "bb", "aa", "bb", "cc", "dd");
JavaRDD<String> strRdd = sc.parallelize(strings);
JavaRDD<String> distinctRdd = strRdd.distinct();
List<String> collect = distinctRdd.collect();
for (String str:

最低0.47元/天解锁文章

屡傻不改

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark RDD算子（三） distinct，union，intersection，subtract，cartesian

章节目录一、distinctscala版本Java版本二、unionscala版本Java版本三、intersectionScala版本Java版本四、subtractscala版本Java版本五、cartesianscala版本Java版本一、distinctdistinct用于去重，我们生成的RDD可能有重复的元素，使用distinct方法可以去掉重复的元素, 不过此方法涉及到混洗，操作开销很大scala版本val conf = new SparkConf().setMaster("local
复制链接

扫一扫

专栏目录