Spark算子总结

Spark算子总结转换算子:针对集合的操作并集:union 使用了UnionRDD,将两个RDD的分区合并到一个RDD中,循环每个RDD的迭代器取数。差集:subtract 底层调用subtractByKey算子,产生shuffle交集:intersection 底层调用cogroup算子,产生shuffle笛卡尔积:cartesian 两个集合一一关联产生新的pair对cogrou...
摘要由CSDN通过智能技术生成

Spark算子总结

转换算子:
针对集合的操作
并集:union 使用了UnionRDD,将两个RDD的分区合并到一个RDD中,循环每个RDD的迭代器取数。
差集:subtract 底层调用subtractByKey算子,产生shuffle
交集:intersection 底层调用cogroup算子,产生shuffle
笛卡尔积:cartesian 两个集合一一关联产生新的pair对

cogroup:基础算子,支撑以下几个算子的底层实现
compute函数中,会返回两种依赖关系,oneToOneDependency和shuffleDependency
因为在getDependencies函数中,代码实现如下:
if (rdd.partitioner == Some(part)) new OneToOneDependency(rdd) // 分区器相同时,返回OneToOneDependency
else new ShuffleDependency[K, Any, CoGroupCombiner](rdd.asInstanceOf[RDD[_ <: Product2[K, _]]], part, serializer)// 否则,返回ShuffleDependency

Note:OneToOneDependency继承自NarrowDependency类,而NarrowDependency类的构造函数中的参数RDD没有被禁止序列化,
所以能通过血统找到上一个RDD。前后的分区器相同,所以不会产生shuffle,因为shuffle会产生网络IO,如果数据量极大,会严重影响性能。
ShuffleDependency类的构造函数中的参数RD

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值