SparkSQL相关

最新推荐文章于 2024-08-20 11:26:26 发布

有你就好@1222

最新推荐文章于 2024-08-20 11:26:26 发布

阅读量1.4k

点赞数

分类专栏： spark 文章标签： mysql spark java

本文链接：https://blog.csdn.net/qq_44597288/article/details/121995608

版权

spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

SQL 解析：

SQL Query，需要经过词法和语法解析，由字符串转换为，树形的抽象语法树。

1、通过遍历抽象语法树生成未解析的逻辑语法树（unresolved logic plan），对应SQL解析后的一种树形结构，本身不包含任务数据信息。
2、需要经过一次遍历之后，转换成成包含解析后的逻辑算子树（Analyzed LogicPlan），本身携带了各种信息。
3、最后经过优化后得到最终的逻辑语法树（Optimized LogicPlan）。
在这里插入图片描述

不管解析被划分为几步，在Spark 执行环境中，都要转化成RDD的调用代码，才能被spark core所执行，示意图如下：
在这里插入图片描述

创建视图：

createOrReplaceTempView 的作用是创建一个临时的表 , 一旦创建这个表的会话关闭 , 这个表也会立马消失其他的SparkSession 不能共享应已经创建的临时表

createOrReplaceGlobalTempView创建一个全局的临时表 , 这个表的生命周期是整个Spark应用程序 ,
只要Spark 应用程序不关闭 , 那么. 这个临时表依然是可以使用的 ,并且这个表对其他的SparkSession共享（要 global_temp.‘tablename’ 使用）

分组语句：

GROUP BY : 使用时不像MySQL分组，MySQL可以返回不在group by条件中的列的随机一条数据作为该列返回值，spark sql 和 hive sql 类似，不能这样随机返回，只能以聚合函数形式返回。

窗口函数：

function OVER (PARITION BY … ORDER BY … FRAME_TYPE BETWEEN … AND …)

function ：对窗口内所有行都处理的函数
PARITION BY ：依据指定列进行分窗处理
ORDER BY ：窗口内依据指定字段排序
FRAME_TYPE ：FRAME是当前分区的一个子集，子句用来定义子集的规则，通常用来作为滑动窗口使用。主要用来控制每行数据在应用窗口函数时，这个窗口函数的作用范围。
（
FRAME_TYPE rows 指定函数基于当前行的窗口范围
rows between …T… and …T…
T 如下：
unbounded preceding 前面所有行
unbounded following 后面所有行
current row 当前行
n following 后面n行
n preceding 前面n行
）

有你就好@1222

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL相关

SQL 解析：SQL Query，需要经过词法和语法解析，由字符串转换为，树形的抽象语法树。1、通过遍历抽象语法树生成未解析的逻辑语法树（unresolved logic plan），对应SQL解析后的一种树形结构，本身不包含任务数据信息。2、需要经过一次遍历之后，转换成成包含解析后的逻辑算子树（Analyzed LogicPlan），本身携带了各种信息。3、最后经过优化后得到最终的逻辑语法树（Optimized LogicPlan）。不管解析被划分为几步，在Spark 执行环境中，都要转化成RD
复制链接

扫一扫

专栏目录