SparkSQL相关

SQL 解析:

SQL Query,需要经过词法和语法解析,由字符串转换为,树形的抽象语法树。

1、通过遍历抽象语法树生成未解析的逻辑语法树(unresolved logic plan),对应SQL解析后的一种树形结构,本身不包含任务数据信息。
2、需要经过一次遍历之后,转换成成包含解析后的逻辑算子树(Analyzed LogicPlan),本身携带了各种信息。
3、最后经过优化后得到最终的逻辑语法树(Optimized LogicPlan)。
在这里插入图片描述

不管解析被划分为几步,在Spark 执行环境中,都要转化成RDD的调用代码,才能被spark core所执行,示意图如下:
在这里插入图片描述

创建视图:

createOrReplaceTempView 的作用是创建一个临时的表 , 一旦创建这个表的会话关闭 , 这个表也会立马消失 其他的SparkSession 不能共享应已经创建的临时表

createOrReplaceGlobalTempView创建一个全局的临时表 , 这个表的生命周期是 整个Spark应用程序 ,
只要Spark 应用程序不关闭 , 那么. 这个临时表依然是可以使用的 ,并且这个表对其他的SparkSession共享(要 global_temp.‘tablename’ 使用)

分组语句:

GROUP BY : 使用时不像MySQL分组,MySQL可以返回不在group by条件中的列的随机一条数据作为该列返回值,spark sql 和 hive sql 类似,不能这样随机返回,只能以聚合函数形式返回。

窗口函数:

function OVER (PARITION BY … ORDER BY … FRAME_TYPE BETWEEN … AND …)

function :对窗口内所有行都处理的函数
PARITION BY : 依据指定列进行分窗处理
ORDER BY : 窗口内依据指定字段排序
FRAME_TYPE :FRAME是当前分区的一个子集,子句用来定义子集的规则,通常用来作为滑动窗口使用。主要用来控制每行数据在应用窗口函数时,这个窗口函数的作用范围。

FRAME_TYPE rows 指定函数基于当前行的窗口范围
rows between …T… and …T…
T 如下:
unbounded preceding 前面所有行
unbounded following 后面所有行
current row 当前行
n following 后面n行
n preceding 前面n行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值