你真的懂Spark SQL架构的工作原理么？

最新推荐文章于 2023-03-14 10:36:08 发布

是一只萨摩耶

最新推荐文章于 2023-03-14 10:36:08 发布

阅读量418

点赞数

文章标签：大数据 spark

本文链接：https://blog.csdn.net/Aa112233aA1/article/details/119670161

版权

Spark SQL因其兼容Hive且使用Catalyst优化器提供高效计算而备受关注。Catalyst是一个可扩展的查询优化器，负责解析、优化和执行SQL查询。其内部包括Parse、Analyze、Optimizer、SparkPlanner和CostModel组件，分别处理SQL解析、类型绑定、逻辑计划优化、物理计划生成和执行计划选择。工作流程涉及创建SparkSession、解析SQL、元数据绑定、逻辑计划生成和优化，最后执行物理计划。

摘要由CSDN通过智能技术生成

Spark SQL兼容Hive，这是因为Spark SQL架构与Hive底层结构相似，Spark SQL复用了Hive提供的元数据仓库（Metastore）、HiveQL、用户自定义函数（UDF）以及序列化和反序列工具（SerDes），下面通过图1深入了解Spark SQL底层架构。

在这里插入图片描述
可以看出，Spark SQL架构与Hive架构相比，除了把底层的MapReduce执行引擎更改为Spark，还修改了Catalyst优化器，Spark SQL快速的计算效率得益于Catalyst优化器。从HiveQL被解析成语法抽象树起，执行计划生成和优化的工作全部交给Spark SQL的Catalyst优化器进行负责和管理。

Catalyst优化器是一个新的可扩展的查询优化器，它是基于Scala函数式编程结构，Spark SQL开发工程师设计可扩展架构主要是为了在今后的版本迭代时，能够轻松地添加新的优化技术和功能，尤其是为了解决大数据生产环境中遇到的问题（例如，针对半结构化数据和高级数据分析），另外，Spark作为开源项目，外部开发人员可以针对项目需求自行扩展Catalyst优化器的功能。下面通过图2描述Spark SQL的工作原理。
在这里插入图片描述
Spark要想很好地支持SQL，就需要完成解析&#