2024年大数据最新一文速学-玩转SQL之执行顺序，单表自连接操作和用法_表自链接(1)，大数据开发面试大数据开发基础

最新推荐文章于 2024-10-29 09:57:15 发布

2401_84591619

最新推荐文章于 2024-10-29 09:57:15 发布

阅读量747

点赞数 20

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84591619/article/details/138825777

版权

程序员专栏收录该内容

58 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

众所周知要玩转SQL查询光靠那个几个查询关键字是远远不够的，SQL作为数据库的存在，往往存在多个物理表或者映射，有时候存在内容吃紧的情况，或者是查询结果表存在多个指标。这需要我们进行单表操作，实现统计不同的指标或者不同条件查询结果进行计算。要进行指标提取或者是创建新指标，推荐是使用自连接的方法可以快速从原始表根据相关指标，如：时间、主键等相关联相同数值的特征连接。下面不再废话让我们一步一步实现。

一、基础前提

首先我们需要了解，任何的编程语言都有一定的共性。但是SQL语言的话，对我们开发者经常使用的Python和JAVA而言属实操作僵硬，不像Pandas的DataFrame数据类型那样操作灵活。让我们感觉写SQL语言并没有那种如鱼得水的畅快感，这是有原因的：SQL 是一种声明式语言。

从我们开始学编程基本都是学的C语言这种强面向过程结构化语言，逐条执行，按条件查询检索后再执行这样的思维。而对于SQL语言来讲，它的执行顺序并没有我们想的过程一步一条执行。

SQL语句的执行顺序跟其语句的语法顺序是不一样的。

SQL执行顺序：

(1)FROM
<表名> # 选取表，将多个表数据通过笛卡尔积变成一个表。
(2)ON
<筛选条件> # 对笛卡尔积的虚表进行筛选
(3)JOIN <join, left join, right join…>
<join表> # 指定join，用于添加数据到on之后的虚表中，例如left join会将左表的剩余数据添加到虚表中
(4)WHERE
<where条件> # 对上述虚表进行筛选
(5)GROUP BY
<分组条件> # 分组
(6)<SUM()等聚合函数> # 用于having子句进行判断，在书写上这类聚合函数是写在having判断里面的
(7)HAVING
<分组筛选> # 对分组后的结果进行聚合筛选
(8)SELECT
<返回数据列表> # 返回的单列必须在group by子句中，聚合函数除外
(9)DISTINCT # 数据除重
(10)ORDER BY
<排序条件> # 排序，如非必要尽量不用
(11)LIMIT
<行数限制>

SQL语句顺序：

(8) SELECT （9）DISTINCT < 去重列 >
(1) FROM < 左表 >
(3) < 连接类型 > JOIN < 右表 >
(2) ON <连接条件>
(4) WHERE < 筛选条件 >
(5) GROUP BY < 分组列 >
(6) WITH {CUBE|ROLLUP}
(7) HAVING < 分组筛选 >
(10) ORDER BY < 排序列 >
(11) LIMIT < 行数限制 >
注：这里大家注意，（4）WHERE 筛选的是连接后的新表。

通过SQL的语法顺序和执行顺序很容易就看出，这和我们一步一步一个语句实现一个效果不同。要是我们按照面向过程来编程。那肯定首先是from先拿出表格，再考虑是否根据条件连接其他表格实现多表格联合处理。但是我们写的时候不能这么写，所以会感觉比较不适。了解了原理之后我们便可真正开始进行单表操作了。

二、单表操作

1.自连接

创建

为了方便演示这里创建一张value_test:

CREATE TABLE `value_test` (
  `code` int(20) NOT NULL,
  `time` bigint(124) NOT NULL,
  `value` bigint(124) NOT NULL,
  PRIMARY KEY (`value`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb3;

插入数据：

INSERT INTO value_test(`code`,time,`value`) VALUES('1','20220601','101');
INSERT INTO value_test(`code`,time,`value`) VALUES('1','20220602','102');
INSERT INTO value_test(`code`,time,`value`) VALUES('1','20220603','103');
INSERT INTO value_test(`code`,time,`value`) VALUES('1','20220604','104');
INSERT INTO value_test(`code`,time,`value`) VALUES('1','20220605','105');
INSERT INTO value_test(`code`,time,`value`) VALUES('1','20220606','106');
INSERT INTO value_test(`code`,time,`value`) VALUES('1','20220607','107');
INSERT INTO value_test(`code`,time,`value`) VALUES('2','20220601','201');
INSERT INTO value_test(`code`,time,`value`) VALUES('2','20220602','202');
INSERT INTO value_test(`code`,time,`value`) VALUES('2','20220603','203');
INSERT INTO value_test(`code`,time,`value`) VALUES('2','20220604','204');
INSERT INTO value_test(`code`,time,`value`) VALUES('2','20220605','205');
INSERT INTO value_test(`code`,time,`value`) VALUES('2','20220606','206');
INSERT INTO value_test(`code`,time,`value`) VALUES('2','20220607','207');
INSERT INTO value_test(`code`,time,`value`) VALUES('3','20220601','301');
INSERT INTO value_test(`code`,time,`value`) VALUES('3','20220602','302');
INSERT INTO value_test(`code`,time,`value`) VALUES('3','20220603','303');
INSERT INTO value_test(`code`,time,`value`) VALUES('3','20220604','304');
INSERT INTO value_test(`code`,time,`value`) VALUES('3','20220605','305');
INSERT INTO value_test(`code`,time,`value`) VALUES('3','20220606','306');
INSERT INTO value_test(`code`,time,`value`) VALUES('3','20220607','307');

得到了这张表格：