本笔记为阿里云天池计划sql打卡读书笔记内容:链接为:
Part 1:要点摘录
1 SELECT语句基础
1.1 从表中选取数据
据我了解,一些数据分析工作的主要内容就是取数。( 取数人,取数魂,取数就是人上人!)在SQL中,取数要用到如下语句:
SELECT语句 从表中选取数据时需要使用SELECT语句,也就是只从表中选出(SELECT)必要数据的意思。通过SELECT语句查询并选取出必要数据的过程称为匹配查询或查询(query)。
基本SELECT语句包含了SELECT和FROM两个子句(clause)。示例如下:
SELECT <列名>,
FROM <表名>;
其中,SELECT子句中列举了希望从表中查询出的列的名称,而FROM子句则指定了选取出数据的表的名称。
1.2 从表中选取符合条件的数据
取数操作我们会了,接着问题来了,我们该取什么样的数呢?——那肯定就是老板让我取什么我就取什么(肤浅!!!),当然是取满足业务要求的数据啦。在SQL中,查询出只符合某些条件的记录要用到如下语句:
WHERE语句 当不需要取出全部数据,而是选取出满足“商品种类为衣服”“销售单价在1000日元以上”等某些条件的数据时,使用WHERE语句。
1.3 一些注意事项
- 星号(*)代表全部列的意思
- SQL中可以随意使用换行符,不影响语句执行(但不可插入空行)
- 设定汉语别名时需要使用双引号(")括起来
- 在SELECT语句中使用DISTINCT可以删除重复行(DISTINCT影响所有被选择的列)
2 运算符
2.1 算术运算符和比较运算符
种类 | 运算符 | 含义 |
---|---|---|
算术运算符 | + | 加法 |
算术运算符 | - | 减法 |
算术运算符 | * | 乘法 |
算术运算符 | / | 除法 |
比较运算符 | = | 相等 |
比较运算符 | <> | 不相等 |
比较运算符 | >、>= | 大于、大于等于 |
比较运算符 | <、<= | 小于、小于等于 |
2.2 逻辑运算符
1、NOT运算符
应用:想要表示“不是……”时,除了前文的<>运算符外,还存在另外一个表示否定、使用范围更广的运算符NOT
2、AND运算符和OR运算符
应用:当希望同时使用多个查询条件时,可以使用AND或者OR运算符
解释:用优美的数学语言来说,AND类似于给集合取交集,OR类似于给集合取并集
比较:AND 运算符优先于OR运算符,想要优先执行OR运算,可以使用括号()提高运算优先级
# 如condition1为真,condition2为假,condition3为真
condition1 AND condition2 OR condition3 # 整体为假
condition1 AND (condition2 OR condition3) # 整体为真
2.3 一些注意事项
- NULL值:除真假之外的第三种值——不确定(UNKNOWN)。一般的逻辑运算是二值逻辑,只包含真和假这两种真值。SQL 之外的语言也基本上只使用真和假这两种真值(❤️SQLSQL不一样的花火)
3 对表的操作
3.1 分组
GROUP BY 子句就像切蛋糕那样将表进行了分组。在 GROUP BY 子句中指定的列称为聚合键或者分组列。当聚合建中包含NULL时,会将NULL作为一组特殊数据进行处理。
GROUP BY的子句书写顺序有严格要求,不按要求会导致SQL无法正常执行,目前出现过的子句书写顺序为
1. SELECT → 2. FROM → 3. WHERE → 4. GROUP BY
其中前三项用于筛选数据,GROUP BY对筛选出的数据进行处理。
在SQL中,GROUPB BY主要有两大功能——使用GROUP BY进行单列分组以及多列分组。其中,多列分组语法如下
SELECT <column1>, <column2>, avg(<column3>) FROM <table> GROUP BY <column1>, <column2>;
这里GROUP BY 语句表示为先根据<column1>进行分组,再根据<column2>进行分组。
3.2 聚合查询
如何找到人群中最好看的小姐姐?优秀的聚合函数来帮你!SQL中用于汇总的函数叫做聚合函数。以下五个是最常用的聚合函数:
- COUNT:计算表中的记录数(行数)
- SUM:计算表中数值列中数据的合计值
- AVG:计算表中数值列中数据的平均值
- MAX:求出表中任意列中数据的最大值
- MIN:求出表中任意列中数据的最小值
使用聚合函数有以下情况需要注意:
- 聚合函数会将NULL排除在外。但COUNT(*)例外,并不会排除NULL
- MAX/MIN函数几乎适用于所有数据类型的列。SUM/AVG函数只适用于数值类型的列
- 想要计算值的种类时,可以在COUNT函数的参数中使用DISTINCT
- 在聚合函数的参数中使用DISTINCT,可以删除重复数据
阿里云的讲义中先讲的聚合函数再讲的分组,这只适用于SELECT子句中仅包含分组函数而不包含列名和表达式的情况。这是因为,如果选择列表包含有列、表达式和分组函数,那么这些列和表达式必须出现在 GROUP BY 子句中,否则会出错。为了提高对此类错误的认识,本文先记录了分组操作再记录聚合函数。
在使用聚合函数及GROUP BY子句时,要注意以下常见错误:
- 在聚合函数的SELECT子句中写了聚合键以外的列:使用COUNT等聚合函数时,SELECT子句中如果出现列名,只能是GROUP BY子句中指定的列名(也就是聚合键)
- 在GROUP BY子句中使用列的别名:SELECT子句中可以通过AS来指定别名,但在GROUP BY中不能使用别名。因为在DBMS中,SELECT子句在GROUP BY子句后执行
- 在WHERE中使用聚合函数:原因是聚合函数的使用前提是结果集已经确定,而WHERE还处于确定结果集的过程中,所以相互矛盾会引发错误。 如果想指定条件,可以在SELECT,HAVING以及ORDER BY子句中使用聚合函数
3.3 为聚合结果指定条件
将表使用GROUP BY分组后,怎样才能只提取其中的某些组呢?我们在前面知道了WHERE可以限制条件。但这里WHERE不可行、因为,WHERE子句只能指定记录(行)的条件,而不能用来指定组的条件(例如,某组“数据行数为 2 行”或者“平均值为 500”等)。要指定组的条件,可以在GROUP BY后使用HAVING子句,其用法类似WHERE。
HAVING子句用于对分组进行过滤,可以使用数字、聚合函数和GROUP BY中指定的列名(聚合键)。
4 对查询结果进行排序
SQL中的执行结果是随机排列的,当需要按照特定顺序排序时,可使用ORDER BY子句。
SELECT <列名1>, <列名2>, <列名3>, ……
FROM <表名>
ORDER BY <排序基准列1>, <排序基准列2>, ……
默认为升序排列,降序排列在ORDER BY子句的最后加DESC,在ORDER BY子句中可以使用别名。为什么在GROUP BY中不可以使用别名而在ORDER BY中可以呢?这是因为SQL在使用 HAVING 子句时 SELECT 语句的执行顺序为:
FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY
我们在SELECT子句中设置别名,其中SELECT的执行顺序在 GROUP BY 子句之后,ORDER BY 子句之前。也就是说,当在ORDER BY中使用别名时,已经知道了SELECT设置的别名存在,但是在GROUP BY中使用别名时还不知道别名的存在,所以在ORDER BY中可以使用别名,但是在GROUP BY中不能使用别名。
此外,当用于排序的列名中含有NULL时,NULL会在开头或末尾进行汇总。