SparkSql 中 JOIN的实现

最新推荐文章于 2024-04-13 21:19:08 发布

ZHAOHUODIAN888

最新推荐文章于 2024-04-13 21:19:08 发布

阅读量247

点赞数

分类专栏：后端文章标签：大数据 spark 分布式 java 职场和发展

本文链接：https://blog.csdn.net/ZHAOHUODIAN888/article/details/126492397

版权

本文介绍了Spark SQL中Join的实现，包括Join的基本要素和类型，如inner join、outer join、semi join等。文章详细阐述了sort merge join、broadcast join和hash join的实现流程，并探讨了不同Join方式的选择策略。

摘要由CSDN通过智能技术生成

Join作为SQL中一个重要语法特性，几乎所有稍微复杂一点的数据分析场景都离不开Join，如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流，作为开发者，我们有必要了解Join在Spark中是如何组织运行的。

SparkSQL总体流程介绍

在阐述Join实现之前，我们首先简单介绍SparkSQL的总体流程，一般地，我们有两种方式使用SparkSQL，一种是直接写sql语句，这个需要有元数据库支持，例如Hive等，另一种是通过Dataset/DataFrame编写Spark应用程序。如下图所示，sql语句被语法解析(SQL AST)成查询计划，或者我们通过Dataset/DataFrame提供的APIs组织成查询计划，查询计划分为两大类：逻辑计划和物理计划，这个阶段通常叫做逻辑计划，经过语法分析(Analyzer)、一系列查询优化(Optimizer)后得到优化后的逻辑计划，最后被映射成物理计划，转换成RDD执行。

对于语法解析、语法分析以及查询优化，本文不做详细阐述，本文重点介绍Join的物理执行过程。

Join基本要素

如下图所示，Join大致包括三个要素：Join方式、Join条件以及过滤条件。其中过滤条件也可以通过AND语句放在Join条件中。

Spark支持所有类型的Join，包括：

inner join
left outer join
right outer join
full outer join
left semi join
left anti join

下面分别阐述这几种Join的实现。

Join基本实现流程

总体上来说，Join的基本实现流程如下图所示，Spark将参与Join的两张表抽象为流式遍历表(streamIter)和查找表(buildIter)，通常streamIter为大表，buildIter为小表，我们不用担心哪个表为streamIter，哪个表为buildIter，这个spark会根据join语句自动帮我们完成。