spark transform系列__join

最新推荐文章于 2024-05-28 22:46:39 发布

隔壁老杨hongs

最新推荐文章于 2024-05-28 22:46:39 发布

阅读量1.8k

点赞数

文章标签： spark 源代码 spark-transform

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014393917/article/details/50602479

版权

这篇博客详细介绍了Spark中的Join操作，包括join、fullOuterJoin、leftOuterJoin和rightOuterJoin四种类型。通过源代码分析，解释了它们的实现流程和差异。Join操作基于cogroup函数，而leftOuterJoin和rightOuterJoin分别以左和右RDD为基准保留所有数据，fullOuterJoin则是两者的组合，确保所有数据都被包含。

摘要由CSDN通过智能技术生成

Join

Join包含有join,fullOuterJoin,leftOuterJoin,rightOuterJoin四种实现,

下面先根据join的实现流程进行分析,再对join分析的结果的基础上,最后根据后面三种join的实现,说明下这几种JOIN的差别所在.

Join的函数中,需要一个Partitioner的实例,默认是HashPartitioner,join的实现中,是直接通过调用的cogroup函数来进行的实现,因此,要分析join的流程时,我们需要先去了解下cogroup的流程实现;

Join函数,

在进行join操作时,需要先定义W的类型(要合并的另一个RDD的value的类型)

def join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))] = self.withScope {
  this.cogroup(other, partitioner).flatMapValues( pair =>
    for (v <- pair._1.iterator; w <- pair._2.iterator) yield (v, w)
  )
}

在join操作的函数中,首先是先执行了cogroup的操作,这个操作把两个RDD中相同的key对应的value集合生成为一个Pair.

接下来,通过flatMapValues操作,对相同的key的value部分进行迭代,其实一个key在flatMapValues时只包含一个value.针对这个value执行下面这个for的迭代.

for (v <- pair._1.iterator; w <- pair._2.iterator) yield (v, w)

最低0.47元/天解锁文章

隔壁老杨hongs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark transform系列__join

JoinJoin包含有join,fullOuterJoin,leftOuterJoin,rightOuterJoin四种实现,下面先根据join的实现流程进行分析,再对join分析的结果的基础上,最后根据后面三种join的实现,说明下这几种JOIN的差别所在.Join的函数中,需要一个Partitioner的实例,默认是HashPartitioner,join的实现中,是直接通过调用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。