(spark源码)union算子

最新推荐文章于 2023-12-16 16:16:21 发布

IAmListening

最新推荐文章于 2023-12-16 16:16:21 发布

阅读量3.9k

点赞数 5

分类专栏：源码文章标签： spark union

本文链接：https://blog.csdn.net/IAmListening/article/details/94617939

版权

摘要

问题: spark中, union方法是否重新分区, 是否会触发shuffle
结论: 不会shuffle, 不会划分stage, 但是可能重新分区(窄依赖)
解释:
(1) 宽窄依赖对应的原称为ShuffleDependency和NarrowDependency, 字面上可以看出来, 只有宽依赖才会发生shuffle. 但是两种依赖都会重新分区, 因此重分区和是否shuffle没有关系
(2) 如果被union的多个rdd, 分区规则相同, 那么index相同的分区, 会被整合到多数分区所在的节点. 比如a节点有2个index为0的分区, b节点有1个, union之后的0分区会全部转移到a节点
(3) 如果分区规则不同, union后生成的UnionRDD, 不会进行重新分区, 而是把每个分区合并记录到分区数组中

`union`方法

// 调用sparkContent的方法, 把this作为参数传进去. 基本操作
def union(other: RDD[T]): RDD[T] = withScope {
  sc.union(this, other)
}
// 实际调用了重载方法
def union[T: ClassTag](first: RDD[