Spark SQL架构工作原理及流程解析

骨灰级收藏家

于 2022-11-10 16:31:51 发布

阅读量377

点赞数

分类专栏：架构大数据 Spark 文章标签： spark sql 架构

本文链接：https://blog.csdn.net/JACK_SUJAVA/article/details/127791277

版权

Spark SQL从Shark发展而来，兼容Hive并使用Catalyst优化器提升效率。其工作流程包括：创建SparkSession、SQL解析、Analyzer绑定逻辑计划、Optimizer优化、SparkPlanner生成物理计划、CBO选择最佳计划，最后执行Physical Plan返回结果。Catalyst优化器是基于Scala的可扩展查询优化器，允许外部扩展。

摘要由CSDN通过智能技术生成

SparkSQL架构工作原理及流程解析，spark sql从shark发展而来，Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑。

Spark SQL兼容Hive，因为Spark SQL架构与Hive底层结构相似，Spark SQL复用了Hive提供的元数据仓库（Metastore）、HiveQL、用户自定义函数（UDF）以及序列化和反序列工（SerDes），深入了解Spark SQL底层架构：

Spark SQL架构

Spark SQL架构与Hive架构相比除了把底层的MapReduce执行引擎更改为Spark还修改了Catalyst优化器，Spark SQL快速的计算效率得益于Catalyst优化器。从HiveQL被解析成语法抽象树起，执行计划生成和优化的工作全部交给Spark SQL的Catalyst优化器进行负责和管理。

Catalyst优化器是一个新的可扩展的查询优化器，它是基于Scala函数式编程结构，Spark SQL开发工程师设计可扩展架构主要是为了在今后的版本迭代时，能够轻松地添加新的优化技术和功能，尤其是为了解决大数据生产环境中遇到的问题（例如，针对半结构化数据和高级数据分析），

最低0.47元/天解锁文章

骨灰级收藏家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL架构工作原理及流程解析

parkSQL架构工作原理及流程解析，spark sql从shark发展而来，Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑。
复制链接

扫一扫

专栏目录