连接查询
并(UNION)
UNION 用于合并两个或多个 SELECT 语句的结果集,并消去表中任何重复行。
UNION 内部的 SELECT 语句必须拥有相同数量的列,列也必须拥有相似的数据类型。
同时,每条 SELECT 语句中的列的顺序必须相同.
SQL UNION 语法:
sql脚本代码如下:
1 2 3 |
|
如果子句中有order by,limit,需用括号()包起来。推荐放到所有子句之后,即对最终合并的结果来排序或筛选。
如:
sql脚本代码如下:
1 |
|
在子句中,order by 需要配合limit使用才有意义。如果不配合limit使用,会被语法分析器优化分析时去除。
笛卡尔乘积(✖,CROSS JOIN,交叉连接
)
现象:最终的结果 = 表1的行数 × 表2的行数
CROSS JOIN
子句从连接的表返回行的笛卡儿乘积。
假设使用CROSS JOIN
连接两个表。 结果集将包括两个表中的所有行,其中结果集中的每一行都是第一个表中的行与第二个表中的行的组合。 当连接的表之间没有关系时,会使用这种情况。
要特别注意的是,如果每个表有1000
行,那么结果集中就有1000 x 1000 = 1,000,000
行,那么数据量是非常巨大的。
下面说明连接两个表:T1
和T2
的CROSS JOIN
子句的语法:
SELECT
*
FROM
T1
CROSS JOIN
T2;
SQL
请注意,与INNER JOIN或LEFT JOIN子句不同,CROSS JOIN
子句不具有连接条件。
常见错误
错误代码:1052
Column ‘???’ in field list is ambiguous
这种错误是由于指定的列不明确造成的。一般是由于查询的列,在查询的多个表中都有,即多个表含有相同的字段。
解决的方法是:使用【表名.列名】将其限制。
内连接(INNER JOIN)
在多表关系的笛卡尔数据集中保留符合条件的数据记录,舍弃不匹配的数据记录,根据匹配条件可分为自然连接,等值连接和不等连接。
自然连接
自然连接和等值连接的目的是一致的,但是自然连接不能有连接条件,自然连接会自动匹配两表中相同字段名的相同字段值,并且会把搜索结果中的相同字段名合并,还有个变态的要求,就是两表必须有相同字段名的列,这就导致自然连接很少被用到。
语法:
SELECT 列
FROM 表1 NATURAL JOIN 表2
等值连接(两种写法都可以)
选取多表笛卡尔积中字段相等的数据记录。(保留多表的关联列,虽然这些的字段的字段值肯定相等)
一、普通语法:
SELECT 列
FROM 表1 INNER JOIN 表2 ON 连接条件(两个表的关联列相等)
INNER JOIN 表3 ON 连接条件
........
二、ANSI连接语法形式:
SELECT 列
FROM 表1, 表2
WHERE 连接条件(两个表的关联列相等)
AND 连接条件2(或筛选条件)
.........
注意:还有一种特殊情况,就是自己和自己等值连接,这种情况叫自连接
非等值连接
和等值连接差不多,只是把连接条件中的运算符换一下,还是在笛卡尔积结果集中搜索匹配记录。
示例:查询员工的工资级别
分析:
employees表中有salary,而salary_grades表中有grade、max_salary和min_salary三个字段。所以要使用BETWEEN…AND将这两个连接起来
SELECT grade, salary
FROM employees, salary_grades
WHERE salary BETWEEN min_salary AND max_salary;
内连接:表1 [INNER] JOIN 表2 ON 连接条件
INNER 可以省略
外连接:
表1 LEFT [OUTER] JOIN 表2 ON 连接条件
OUTER 可以省略
表1 RIGHT [OUTER] JOIN 表2 ON 连接条件
OUTER 可以省略
FULL OUTER JOIN ON
全外连接(MySQL不支持)
外连接:
在内连接的基础上,还保留部分不符合连接条件的数据记录。
左外连接(一般用左外连接,右外连接和左外差不多,就不多说了)
特点:
① 左外连接,表1 LEFT JOIN 表2 ON 连接条件
表1就是主表,表2就是从表
② 查询的结果集是:主表中所有的记录,以及:从表中和主表匹配的记录,如果从表有和主表不匹配的记录,则用NULL填充
即 主表某列的记录: 1 2 3 4
从表某列的记录: 1 2
注:某列为主从表相同的字段
结果集:
主表 从表
1 1
2 2
3 NULL
4 NULL
③ 一般用于查询主表中有,而从表中没有的数据
④ 左外连接和右外连接互换主从表的顺序,并更换LEFT | RIGHT 关键字,可以达到相同的效果
Tips:在解题前先想清楚,哪个表的字段要全部显示【主表】,哪个表的字段中含有NULL值【从表】。
【一般是】
SELECT 主表字段, 从表.主从相同字段
FROM 主表 LEFT OUTER JOIN 从表
ON 主表.主从相同字段 = 从表.主从相同字段
WHERE 从表.主从相同字段 IS NULL | 从表.主从相同字段 IS NOT NULL;
⑴ 示例:显示哪个部门中没有员工
分析:
显示没有员工的部门,即departments表中的department_id的数量要比employees表中的department_id的数量多。所以departments表当主表,而employees表当从表。
① 首先显示出主表中所有的department_name
SELECT e.department_id, department_name
FROM departments d LEFT OUTER JOIN employees e
ON d.department_id = e.department_id;
② 从输出的结果可以看出:e.department_id列含有NULL值,所以接下来应当判断:e.department_id有NULL值,即为没有员工的部门
SELECT e.department_id, department_name
FROM departments d LEFT OUTER JOIN employees e
ON d.department_id = e.department_id
WHERE e.department_id IS NULL;
⑵ 示例:查询哪个国家没有部门
分析:
查询哪个国家没有部门,即locations表的location_id的数量比departments表的location_id数量多。所以locations表当主表,departments当从表
SELECT country_id, d.location_id
FROM locations l LEFT OUTER JOIN departments d
ON l.location_id = d.location_id
WHERE d.location_id IS NULL;
一、子查询定义
定义:
子查询允许把一个查询嵌套在另一个查询当中。
子查询,又叫内部查询,相对于内部查询,包含内部查询的就称为外部查询。
子查询可以包含普通select可以包括的任何子句,比如:distinct、 group by、order by、limit、join和union等;但是对应的外部查询必须是以下语句之一:select、insert、update、delete、set或 者do。
子查询的位置:
select 中、from 后、where 中.group by 和order by 中无实用意义。
二、子查询分类
子查询分为如下几类:
1. 标量子查询:返回单一值的标量,最简单的形式。
2. 列子查询:返回的结果集是 N 行一列。
3. 行子查询:返回的结果集是一行 N 列。
4. 表子查询:返回的结果集是 N 行 N 列。
可以使用的操作符:= > < >= <= <> ANY IN SOME ALL EXISTS
一个子查询会返回一个标量(就一个值)、一个行、一个列或一个表,这些子查询称之为标量、行、列和表子查询。
如果子查询返回一个标量值(就一个值),那么外部查询就可以使用:=、>、<、>=、<=和<>符号进行比较判断;如果子查询返回的不是一个标量值,而外部查询使用了比较符和子查询的结果进行了比较,那么就会抛出异常。
1. 标量子查询:
是指子查询返回的是单一值的标量,如一个数字或一个字符串,也是子查询中最简单的返回形式。 可以使用 = > < >= <= <> 这些操作符对子查询的标量结果进行比较,通常子查询的位置在比较式的右侧
示例:
1 2 3 |
|
2. MySQL 列子查询:
指子查询返回的结果集是 N 行一列,该结果通常来自对表的某个字段查询返回。
可以使用 = > < >= <= <> 这些操作符对子查询的标量结果进行比较,通常子查询的位置在比较式的右侧
可以使用 IN、ANY、SOME 和 ALL 操作符,不能直接使用 = > < >= <= <> 这些比较标量结果的操作符。
示例:
1 2 3 |
|
NOT IN 是 <> ALL 的别名,二者相同。
特殊情况
如果 table2 为空表,则 ALL 后的结果为 TRUE;
如果子查询返回如 (0,NULL,1) 这种尽管 s1 比返回结果都大,但有空行的结果,则 ALL 后的结果为 UNKNOWN 。
注意:对于 table2 空表的情况,下面的语句均返回 NULL:
1 2 |
|
3. MySQL 行子查询:
指子查询返回的结果集是一行 N 列,该子查询的结果通常是对表的某行数据进行查询而返回的结果集。
例子:
1 2 3 |
|
4. MySQL 表子查询:
指子查询返回的结果集是 N 行 N 列的一个表数据。
例子:
1 |
|
三、字查询例举
1. ANY进行子查询
any关键词的意思是“对于子查询返回的列中的任何一个数值,如果比较结果为TRUE,就返回TRUE”。
好比“10 >any(11, 20, 2, 30)”,由于10>2,所以,该该判断会返回TRUE;只要10与集合中的任意一个进行比较,得到TRUE时,就会返回TRUE。
1 2 3 4 5 6 7 8 9 10 11 |
|
any的意思比较好明白,直译就是任意一个,只要条件满足任意的一个,就返回TRUE。
2. 使用IN进行子查询
使用in进行子查询,这个我们在日常写sql的时候是经常遇到的。in的意思就是指定的一个值是否在这个集合中,如何在就返回TRUE;否则就返回FALSE了。
in是“=any”的别名,在使用“=any”的地方,我们都可以使用“in”来进行替换。
有了in,肯定就有了not in;not in并不是和<>any是同样的意思,not in和<>all是一个意思。
3. 使用SOME进行子查询
some是any的别名,用的比较少。
4. 使用ALL进行子查询
all必须与比较操作符一起使用。all的意思是“对于子查询返回的列中的所有值,如果比较结果为TRUE,则返回TRUE”。
好比“10 >all(2, 4, 5, 1)”,由于10大于集合中的所有值,所以这条判断就返回TRUE;而如果为“10 >all(20, 3, 2, 1, 4)”,这样的话,由于10小于20,所以该判断就会返回FALSE。
<>all的同义词是not in,表示不等于集合中的所有值,这个很容易和<>any搞混,平时多留点心就好了。
5.标量子查询
根据子查询返回值的数量,将子查询可以分为标量子查询和多值子查询。在使用比较符进行子查询时,就要求必须是标量子查询;如果是多值子查询时,使用比较符,就会抛出异常。
6. 多值子查询
与标量子查询对应的就是多值子查询了,多值子查询会返回一列、一行或者一个表,它们组成一个集合。我们一般使用的any、in、all和some等词,将外部查询与子查询的结果进行判断。如果将any、in、all和some等词与标量子查询,就会得到空的结果。
7. 独立子查询
独立子查询是不依赖外部查询而运行的子查询。什么叫依赖外部查询?先看下面两个sql语句。
sql语句1:获得所有hangzhou顾客的订单号。
1 2 3 4 5 6 |
|
sql语句2:获得城市为hangzhou,并且存在订单的用户。
1 2 3 4 5 6 |
|
上面的两条sql语句,虽然例子举的有点不是很恰当,但是足以说明这里的问题了。
对于sql语句1,我们将子查询单独复制出来,也是可以单独执行的,就是子查询与外部查询没有任何关系。
对于sql语句2,我们将子查询单独复制出来,就无法单独执行了,由于sql语句2的子查询依赖外部查询的某些字段,这就导致子查询就依赖外部查询,就产生了相关性。
对于子查询,很多时候都会考虑到效率的问题。当我们执行一个select语句时,可以加上explain关键字,用来查看查询类型,查询时使用的索引以及其它等等信息。比如这么用:
1 2 3 4 5 6 |
|
使用独立子查询,如果子查询部分对集合的最大遍历次数为n,外部查询的最大遍历次数为m时,我们可以记为:O(m+n)。而如果使用相关子查询,它的遍历 次数可能会达到O(m+m*n)。可以看到,效率就会成倍的下降;所以,大伙在使用子查询时,一定要考虑到子查询的相关性。
8.相关子查询
相关子查询是指引用了外部查询列的子查询,即子查询会对外部查询的每行进行一次计算。但是在MySQL的内部,会进行动态优化,会随着情况的不同会 有所不同。使用相关子查询是最容易出现性能的地方。而关于sql语句的优化,这又是一个非常大的话题了,只能通过实际的经验积累,才能更好的去理解如何进 行优化。
9.EXISTS谓词
EXISTS是一个非常牛叉的谓词,它允许数据库高效地检查指定查询是否产生某些行。根据子查询是否返回行,该谓词返回TRUE或FALSE。与其 它谓词和逻辑表达式不同的是,无论输入子查询是否返回行,EXISTS都不会返回UNKNOWN,对于EXISTS来说,UNKNOWN就是FALSE。 还是上面的语句,获得城市为hangzhou,并且存在订单的用户。
1 2 3 4 5 6 |
|
关于IN和EXISTS的主要区别在于三值逻辑的判断上。EXISTS总是返回TRUE或FALSE,而对于IN,除了TRUE、FALSE值外, 还有可能对NULL值返回UNKNOWN。但是在过滤器中,UNKNOWN的处理方式与FALSE相同,因此使用IN与使用EXISTS一样,SQL优化 器会选择相同的执行计划。
说到了IN和EXISTS几乎是一样的,但是,就不得不说到NOT IN和NOT EXISTS,对于输入列表中包含NULL值时,NOT EXISTS和NOT IN之间的差异就表现的非常大了。输入列表包含NULL值时,IN总是返回TRUE和UNKNOWN,因此NOT IN就会得到NOT TRUE和NOT UNKNOWN,即FALSE和UNKNOWN。
10. 派生表
上面也说到了,在子查询返回的值中,也可能返回一个表,如果将子查询返回的虚拟表再次作为FROM子句的输入时,这就子查询的虚拟表就成为了一个派生表。语法结构如下:
1 |
|
由于派生表是完全的虚拟表,并没有也不可能被物理地具体化。
四、子查询优化
很多查询中需要使用子查询。使用子查询可以一次性的完成很多逻辑上需要多个步骤才能完成的SQL操作,同时也可以避免事务或者表锁死。子查询可以使查询语 句很灵活,但子查询的执行效率不高。
子查询时,MySQL需要为内层查询语句的查询结果建立一个临时表。然后外层查询语句再临时表中查询记录。查询完毕 后,MySQL需要撤销这些临时表。因此,子查询的速度会受到一定的影响。如果查询的数据量比较大,这种影响就会随之增大。
在MySQL中可以使用连接查 询来替代子查询。连接查询不需要建立临时表,其速度比子查询要快。
使用连接(JOIN)来代替子查询
如:
1 2 3 4 5 6 7 |
|
1 2 3 4 5 6 |
|
不能优化的子查询:
1、mysql不支持子查询合并和聚合函数子查询优化,mariadb对聚合函数子查询进行物化优化;
2、mysql不支持from子句子查询优化,mariadb对from子句子查询进行子查询上拉优化;
3、mysql和mariadb对子查询展开提供有限的支持,如对主键的操作才能进行上拉子查询优化;
4、mysql不支持exists子查询优化,mariadb对exists关联子查询进行半连接优化,对exists非关联子查询没有进一步进行优化;
5、mysql和mariadb不支持not exists子查询优化;
6、mysql和mariadb对in子查询,对满足半连接语义的查询进行半连接优化,再基于代价评估进行优化,两者对半连接的代价评估选择方式有差异;
7、mysql不支持not in子查询优化,mariadb对非关联not in子查询使用物化优化,对关联not in子查询不做优化;
8、mysql和mariadb对>all非关联子查询使用max函数,<all非关联子查询使用min函数,对=all和非关联子查询使用exists优化;
9、对>some和>any非关联子查询使用min函数,对<some和<any非关联子查询使用max函数,=any 和=some子查询使用半连接进行优化,对>some和>any关联子查询以及<some和<any关联子查询只有exists 优化。