Spark算子总结

最新推荐文章于 2021-01-12 05:55:19 发布

baidu_17104427

最新推荐文章于 2021-01-12 05:55:19 发布

阅读量195

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/baidu_17104427/article/details/86639908

版权

Spark算子总结转换算子：针对集合的操作并集：union 使用了UnionRDD，将两个RDD的分区合并到一个RDD中，循环每个RDD的迭代器取数。差集：subtract 底层调用subtractByKey算子，产生shuffle交集：intersection 底层调用cogroup算子，产生shuffle笛卡尔积：cartesian 两个集合一一关联产生新的pair对cogrou...

摘要由CSDN通过智能技术生成

Spark算子总结

转换算子：
针对集合的操作
并集：union 使用了UnionRDD，将两个RDD的分区合并到一个RDD中，循环每个RDD的迭代器取数。
差集：subtract 底层调用subtractByKey算子，产生shuffle
交集：intersection 底层调用cogroup算子，产生shuffle
笛卡尔积：cartesian 两个集合一一关联产生新的pair对

cogroup：基础算子，支撑以下几个算子的底层实现
compute函数中，会返回两种依赖关系，oneToOneDependency和shuffleDependency
因为在getDependencies函数中，代码实现如下：
if (rdd.partitioner == Some(part)) new OneToOneDependency(rdd) // 分区器相同时，返回OneToOneDependency
else new ShuffleDependency[K, Any, CoGroupCombiner](rdd.asInstanceOf[RDD[_ <: Product2[K, _]]], part, serializer)// 否则，返回ShuffleDependency

Note：OneToOneDependency继承自NarrowDependency类，而NarrowDependency类的构造函数中的参数RDD没有被禁止序列化，
所以能通过血统找到上一个RDD。前后的分区器相同，所以不会产生shuffle，因为shuffle会产生网络IO，如果数据量极大，会严重影响性能。
ShuffleDependency类的构造函数中的参数RD

最低0.47元/天解锁文章

baidu_17104427

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark算子总结

Spark算子总结转换算子：针对集合的操作并集：union 使用了UnionRDD，将两个RDD的分区合并到一个RDD中，循环每个RDD的迭代器取数。差集：subtract 底层调用subtractByKey算子，产生shuffle交集：intersection 底层调用cogroup算子，产生shuffle笛卡尔积：cartesian 两个集合一一关联产生新的pair对cogrou...
复制链接

扫一扫