Spark算子总结
转换算子:
针对集合的操作
并集:union 使用了UnionRDD,将两个RDD的分区合并到一个RDD中,循环每个RDD的迭代器取数。
差集:subtract 底层调用subtractByKey算子,产生shuffle
交集:intersection 底层调用cogroup算子,产生shuffle
笛卡尔积:cartesian 两个集合一一关联产生新的pair对
cogroup:基础算子,支撑以下几个算子的底层实现
compute函数中,会返回两种依赖关系,oneToOneDependency和shuffleDependency
因为在getDependencies函数中,代码实现如下:
if (rdd.partitioner == Some(part)) new OneToOneDependency(rdd) // 分区器相同时,返回OneToOneDependency
else new ShuffleDependency[K, Any, CoGroupCombiner](rdd.asInstanceOf[RDD[_ <: Product2[K, _]]], part, serializer)// 否则,返回ShuffleDependency
Note:OneToOneDependency继承自NarrowDependency类,而NarrowDependency类的构造函数中的参数RDD没有被禁止序列化,
所以能通过血统找到上一个RDD。前后的分区器相同,所以不会产生shuffle,因为shuffle会产生网络IO,如果数据量极大,会严重影响性能。
ShuffleDependency类的构造函数中的参数RD