SparkSQL阿里技术下午茶

最新推荐文章于 2024-05-10 09:23:11 发布

人生路且修且行

最新推荐文章于 2024-05-10 09:23:11 发布

阅读量228

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/qq_40929921/article/details/104917423

版权

Spark 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

SparkSQL阿里技术下午茶

Spark性能

一、Catalyst 优化器层面

在这里插入图片描述

Analyzer：解析一些SparkSQL不认识的节点、元素等，最终得到解析后的节点、元素

Optimizer：优化，例如谓词下推，列裁剪、常量折叠等

Planner：将逻辑执行计划转换成物理执行计划

CoceGen：物理执行计划的代码优化，表达式

功能

将上层产生的逻辑执行计划经过一些解析和相关规则的优化生成RDD，最终执行在SparkCore上执行SQL语句

处理过程

核心思想：TREE+RULE-----遍历树+模式匹配规则

1、用户通过DateFrameAPI/SQL解析得到一个逻辑执行计划(未解析的逻辑执行计划，里面的一些元素未得到验证其合法性)
2、由Analyzer来自验证得到的逻辑执行计划，例如表和列名等，此时得到解析过了逻辑执行计划
3、Optimizer再将已经解析的逻辑计划上添加一些基于规则的优化，得到一个优化过的执行计划
4、通过Planner将优化过的执行计划转换成物理执行计划
5、通过CoceGen来提升其性能，最终在一个RDD在SparkCore上去执行