数据分析系列-SQL入门教程
文章目录
1 SQL语法规则
1.1 概念篇
databases:数据库
tables :表
columns :列/字段/属性
rows :行/记录
1.2 SQL语句执行顺序
1. FROM 和 JOINs
FROM 或 JOIN会第一个执行,确定一个整体的数据范围. 如果要JOIN不同表,可能会生成一个临时Table来用于 下面的过程。总之第一步可以简单理解为确定一个数据源表(含临时表)
2. WHERE
我们确定了数据来源 WHERE 语句就将在这个数据源中按要求进行数据筛选,并丢弃不符合要求的数据行,所有的筛选col属性 只能来自FROM圈定的表. AS别名还不能在这个阶段使用,因为可能别名是一个还没执行的表达式
3. GROUP BY
如果你用了 GROUP BY 分组,那GROUP BY 将对之前的数据进行分组,统计等,并将是结果集缩小为分组数.这意味着 其他的数据在分组后丢弃.
4. HAVING
如果你用了 GROUP BY 分组, HAVING 会在分组完成后对结果集再次筛选。AS别名也不能在这个阶段使用.
5. SELECT
确定结果之后,SELECT用来对结果col简单筛选或计算,决定输出什么数据.
6. DISTINCT
如果数据行有重复DISTINCT 将负责排重.
7. ORDER BY
在结果集确定的情况下,ORDER BY 对结果做排序。因为SELECT中的表达式已经执行完了。此时可以用AS别名.
8. LIMIT / OFFSET
最后 LIMIT 和 OFFSET 从排序的结果中截取部分数据.
1.3 筛选数据:where
1.3.1 筛选数字
当查找的列是数字:
Operator | Condition | SQL Example | 解释 |
---|---|---|---|
=,!=,<,<=,>,>= | Standard numerical operators | col != 4 | 等于,大于,小于 |
BETWEEN…AND… | 筛选字段的值在两个值之间,包含这两个值 | col between 1.5 and 10.5 | 在1.5~10.5之间包含1.5和10.5 |
not between…and… | 筛选字段的值不在两个值之间,不包含这两个值 | col not between 1.5 and 10.5 | 小于1.5 大于10.5的值 |
in(…) | 筛选字段的值在一个集合内 | col in (2,4,6) | 筛选col的值在集合(2,4,6) |
not in(…) | 筛选字段的值不在集合内 | col not in (2,4,6) | 筛选col的值不在集合(2,4,6) |
1.3.2 筛选文本
当筛选的列是文本
Operator | Condition | SQL Example | 解释 |
---|---|---|---|
=,!=,<> | 等于,不等于 | col = “abc” col !=“abcd” col<>“abc” | 等于,不等于 |
like not like | 等于 不等于 | col like ”abc“ col not like ”abcd“ | 字符串相等常用like与not like |
% | 通配符 与like/not like配合使用 | col like %abc% | 模糊匹配 任意字符 |
_ | 通配符 与like/not like配合使用 | col like an_ | 模糊匹配单个字符 |
in/not in | 与筛选数字相同 | col not in (”A“,”B“,”C“) | 筛选col的值是否在集合内 |
1.4 筛选后排序-rows
通过where匹配到想要的数据后,需要对数据以行为单位,进行排序或筛选
select * from table1 where col1 > 1 order by col1 desc limit 2 offset 2
Operator | Condition | SQL Example | 解释 |
---|---|---|---|
order by | order by + column | order by name asc/desc | 按照name列升序/降序排序 |
asc | 升序 | order by name asc | 升序(默认) |
desc | 降序 | order by name desc | 降序 |
limit offset | 筛选 | limit 2 offset 2 | 从第二条记录开始往下取出两条记录 |
order by | 多列排序 | order by name desc,age asc | 按照name列升序排序,age列降序排列 |
1.5 连表 - join
当查找的数据在多张表中,需要根据id进行关联
select * from table1 left join table2 on table1.id = table2.id where col > 1
Operator | Condition | SQL Example | 解释 |
---|---|---|---|
JOIN…ON… | select * from table1 as t1 join table name as t2 on t1.id = t2.id | 按ID连成一个表 | |
inner join … on… | 只保留id相等的行 | ||
left join…on… | 只保留左表所有行 | ||
right join…on… | 只保留右表所有行 | ||
is null / is not null | col is null | col是不是null返回true/false |
1.6 算式
当需要对select的col或where条件的col经过一定计算后才能使用
select *,col*2 from table where col/2 > 4
Operator | Condition | SQL Example | 解释 |
---|---|---|---|
+,-,*,/,% | 加,减,乘,除,取余 | ||
substr | substr(col,0,4) | 字符串截取 | |
As | 取别名 |
列经过算式计算后索引会失效,降低查询效率,慎用
1.7 统计
对查找的rows需要按列进行分组统计
select coount(*) , avg(col), col from table where col > 1 group by col
Operator | Condition | SQL Example | 解释 |
---|---|---|---|
count(1),count(*),count(col name) | 计数 | count(col) | count(*) 扫描所有列,count(1) 忽略为null的行,count(column name) 按列计数 |
min() | 获取最小值 | min(column) | 单列最小 |
max() | 获取最大值 | max(column) | 单列最大 |
avg() | 获取平均值 | avg(column) | 单列平均 |
sum() | 获取列的和 | sum(column) | 单列求和 |
group by | 按列名分组 | group by column | 按列分组 |
having | 分组后按组筛选 | group by column having col > 1 | 分组后条件 |
1.8 子表
一次select得到的rows作为下一次select的临时表才能得到最终结果
select * from (select * from table where col > 1) as tmp where col < 1
Operator | Condition | SQL Example | 解释 |
---|---|---|---|
(select -) as temp | select结果做子表 | ||
in (select -) | select结果做条件 |
2 未完待续
原创文章,如果需要转载请注明出处,谢谢