最近一个学弟问我一道SQL题目。这个问题涉及到三张表,学生表student、选课表sc、课程表course。
要求SQL语句 列出选取了所有课程的学生名单。下面是答案给出的sql语句: (字段名已经都挺容易理解的,毕竟是SQL语句相关习题经常用的一套数据库)
select sname from student where not exists(
select * from course where not exists(
select * from sc where sno=student.sno and cno=course.cno
));
然后两个not exists嵌套使用 就把我小学弟给绕晕了。现在我简单分析一下这种语句。如果有错误之处,请大家指出。首先必须说明:在sql语言里"存在"exists子句是非常不好理解的。因为涉及到集合的概念。如交集,并集,非交集。
exists子句有两种用法,一种为独立exists子查询,另一种是父子关联子查询。前者对父查询不构成筛选作用,子查询若果有记录存在的话则输出所有的父查询记录集,反之则父查询输出空记录集。后者会对父查询构成筛选作用,不使用not关键字的情况下输出父查询中与子查询的交集,而使用not时则输出父查询中与子查询的非交集。
至于如何判断exists子查询属于独立还是父子关联查询,以及为什么父子关联exists子查询会对父查询构成筛选作用,解释起来需要很大的篇幅这里就不讲了。反正我们记住父子关联查询的最常用功能就是它可以求出两张表的交集或非交集(使用not关键字)和不使用group分组的情况下求出某张表的最大值或最小值。好了,进入正题
select sname from student where not exists(
select * from course where not exists(
select * from sc where sno=student.sno and cno=course.cno
));
从该语句我们看到它使用了两个嵌套父子关联 不存在判断 not exists子句,是要通过求非交集的方法查出选修了所有课程的学生名单。
一个学生如果他至少有一门课程没有选修,那么他在课程表里就会存在与选课表的非交集,我们姑且称之为“未选所有课程学生名单子集”,它由内层的not exists选出。这个内层父子关联存在子查询选出课程表里与选课表的非交集,最内层选课表sc的课程号cno、学号sno分别与第二层父表course课程的cno、最外层父表studen学生表的sno进行对等连接,不存在对等的记录即为非交集,从而筛选出“未选所有课程学生名单子集”。
最终目的是检索出选修了所有课程的学生名单,我们从学生表里剔除掉“未选所有课程学生名单子集a”,也就是学生表与该子集a的非交集,即为“选修了所有课程的学生名单”。这项任务由外层的不存在判断完成。
请注意外层exists子句的父表student学号字段与选课表sc学号的对等连接条件是在内层exists子句的where子句里进行交代的,这在sql语句里是被允许的,它使得嵌套父子关联查询语句的编写得以简化。
对于父子关联存在判断exists子查询,直接从字面上理解是很不明确的,但是如果改为从是否存在某一张表(父表)与另一张表(子表)的交集或非交集这个角度来理解,那么其逻辑就会变得比较清晰、易懂了。
顺便提一下,涉及父子关联exists子查询的sql语句常常给人高大上的感觉,但是请务必注意在碰到大数据表时,使用not关键字sql语句的运行效率问题,在有可被利用的索引的情况下not exists运行效率很高,可以放心使用,反之运行效率极低,应跟not in一样应避免使用!