Spark Catalyst 查询优化器原理

最新推荐文章于 2024-08-15 14:09:45 发布

千锋IT教育

最新推荐文章于 2024-08-15 14:09:45 发布

阅读量621

点赞数

分类专栏：大数据文章标签： spark 大数据 hive Powered by 金山文档

本文链接：https://blog.csdn.net/longz_org_cn/article/details/129091406

版权

这里我们讲解一下SparkSQL的优化器系统Catalyst，Catalyst本质就是一个SQL查询的优化器，而且和大多数当前的大数据SQL处理引擎设计基本相同（Impala、Presto、Hive（Calcite）等）。了解Catalyst的SQL优化流程，也就基本了解了所有其他SQL处理引擎的工作原理。

*SQL优化器核心执行策略主要分为两个大的方向：基于规则优化（RBO）以及基于代价优化(CBO)，基于规则
优化是一种经验式、启发式地优化思路，更多地依靠前辈总结出来的优化规则，简单易行且能够覆盖到大部分优
化逻辑，但是对于核心优化算子Join却显得有点力不从心。举个简单的例子，两个表执行Join到底应该使用
BroadcastHashJoin  还是SortMergeJoin？当前SparkSQL的方式是通过手工设定参数来确定，如果一个
表的数据量小于这个值就使用BroadcastHashJoin，但是这种方案显得很不优雅，很不灵活。基于代价优化
就是为了解决这类问题，它会针对每个Join评估当前两张表使用每种Join策略的代价，根据代价估算确定一种
代价最小的方案
*我们这里主要说明基于规则的优化，略提一下CBO

如上图是一个SQL经过优化器的最终生成物理查询计划的留存，红色部分是我们要重点说明的内容。大家思考我们写的一个SQL最终如何在Spark引擎中转换成具体的代码执行的。任何一个优化器工作原理都大同小异：SQL语句首先通过Parser模块被解析为语法树，此棵树称为Unresolved Logical Plan； Unresolved Logical Plan通过Analyzer模块借助于数据元数据解析为Logical Plan；此时再通过各种基于规则的优化策略进行深入优化，得到Optimized Logical Plan；优化后的逻辑执行计划依然是逻辑的，并不能被Spark系统理解，此时需要将此逻辑执行计划转换为Physical Plan；为了更好的对整个过程进行理解，下文通过一个简单示例进行解释。

Parser

最低0.47元/天解锁文章

千锋IT教育

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Catalyst 查询优化器原理

比如Join算子，Spark根据不同场景为该算子制定了不同的算法策略，有BroadcastHashJoin、ShuffleHashJoin以及SortMergeJoin等（可以将Join理解为一个接口， BroadcastHashJoin是其中一个具体实现），物理执行计划实际上就是在这些具体实现中挑选一个耗时最小的算法实现，这个过程涉及到基于代价优化(CBO)策略，所谓基于代价，是因为物理执行计划的每一个节点都是有执行代价的，这个代价主要分为两部分。2.常量累加，如下图。3.列值裁剪，如下图。
复制链接

扫一扫

专栏目录