【大数据学习之路】SparkSQL，mapreduce（大数据离线计算）方向学习（一）

最新推荐文章于 2022-10-17 00:28:15 发布

Souane

最新推荐文章于 2022-10-17 00:28:15 发布

阅读量584

点赞数

分类专栏：大数据文章标签： SparkSQL

本文链接：https://blog.csdn.net/qq_41945793/article/details/90406406

版权

大数据专栏收录该内容

7 篇文章 0 订阅

订阅专栏

【大数据学习之路】SparkSQL，mapreduce（大数据离线计算）方向学习（一）

sql语句的模块解析

当我们写一个查询语句时，一般包含三个部分，select部分，from数据源部分，where限制条件部分，这三部分的内容在sql中有专门的名称：

wKiom1fJJ5SxT9LVAAJ2VA9WO-U118.png-wh_50

当我们写sql时，如上图所示，在进行逻辑解析时会把sql分成三个部分，project，DataSource，Filter模块，当生成执行部分时又把他们称为:Result模块、DataSource模块和Opertion模块。

那么在关系数据库中，当我们写完一个查询语句进行执行时，发生的过程如下图所示：

wKiom1fJKQCTVTrjAAD82tMpcQg075.png-wh_50

整个执行流程是：query -> Parse -> Bind -> Optimize -> Execute

1、写完sql查询语句，sql的查询引擎首先把我们的查询语句进行解析，也就是Parse过程，解析的过程是把我们写的查询语句进行分割，把project，DataSource和Filter三个部分解析出来从而形成一个逻辑解析tree，在解析的过程中还会检查我们的sql语法是否有错误，比如缺少指标字段、数据库中不包含这张数据表等。当发现有错误时立即停止解析，并报错。当顺利完成解析时，会进入到Bind过程。
2、Bind过程，通过单词我们可看出，这个过程是一个绑定的过程。为什么需要绑定过程？这个问题需要我们从软件实现的角度去思考，如果让我们来实现这个sql查询引擎，我们应该怎么做？他们采用的策略是首先把sql查询语句分割，分割不同的部分，再进行解析从而形成逻辑解析tree，然后需要知道我们需要取数据的数据表在哪里，需要哪些字段，执行什么逻辑，这些都保存在数据库的数据字典中，因此bind过程，其实就是把Parse过程后形成的逻辑解析tree，与数据库的数据字典绑定的过程。绑定后会形成一个执行tree，从而让程序知道表在哪里，需要什么字段等等
3、完成了Bind过程后，数据库查询引擎会提供几个查询执行计划，并且给出了查询执行计划的一些统计信息，既然提供了几个执行计划，那么有比较就有优劣，数据库会根据这些执行计划的统计信息选择一个最优的执行计划，因此这个过程是Optimize(优化)过程。
4、选择了一个最优的执行计划，那么就剩下最后一步执行Execute,最后执行的过程和我们解析的过程是不一样的，当我们知道执行的顺序，对我们以后写sql以及优化都是有很大的帮助的.执行查询后，他是先执行where部分，然后找到数据源之数据表，最后生成select的部分，我们的最终结果。执行的顺序是：operation->DataSource->Result

sparkSQL原理：
https://blog.csdn.net/bingdianone/article/details/84791251

Souane

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【大数据学习之路】SparkSQL，mapreduce（大数据离线计算）方向学习（一）

SparkSQL，mapreduce（大数据离线计算）方向学习（一）图片: 带尺寸的图片: 当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。如何插入一段漂亮的代码片去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的代码片.// An highlighted blockvar foo = 'bar';生成一个适合你的列表项目项目项目...
复制链接

扫一扫

专栏目录