该篇文章根据网上的资料跟本人编写SQL的那一点点经验总结出来的,如果有什么不准确的地方,请指正,感谢感谢!
从网上搜集的资料,无论MySQL还是Oracle,都有以下结论:
一、IN跟EXISTS
in是把外表和内表作hash连接,先进行子查询,再进行主查询,子查询能不能匹配到数据,都会对子查询全部匹配完毕。
exists是对外表作loop 循环,先进行主查询,再到子查询中过滤,若子查询匹配到结果,则退出子查询,然后返回true,该条记录被加入到结果集中。
如果查询的两个表大小相当,那么用in和exists差别不大。
如果两个表中一个较小,一个是很大,则子查询表大的用exists,子查询表小的用in,当主查询查询出来的结果集较小,但是子查询查询出来的结果集较大时,使用exists,反之使用in。也就是如果限制性强的条件在子查询,则使用in,如果限制性强的条件在主查询,则使用exists。
虽然结论如此,但是在实际工作中(oracle 11g),有时候会发现无论使用in还exists,效率都差不多,这是因为数据库做了优化。
关于Oracle的优化:
Oracle优化器规则中有三种分析规则,以前主要是基于规则的优化器,即通过预先定义一系列的优先级顺序,比如唯一索引优先于普通索引,又或者是等于索引优先于大于索引,这样即按规则的优先顺序去执行SQL,所以我们就有了在子句结果集很小的时候,in查询速度会快于exists,反之则exists速度会更快的结论,在oracle 9i中,默认提供是基于选择的优化器,即当有分析数据时,采用基于成本的优化方式,没有则仍采用基于规则的查询方式,这样优化模式下基本等同于基于规则或者基于成本。在10g之后的版本,默认都是以基于成本的方式进行,这时候,oracle会先找出可能的执行方式,然后计算出每个执行计划的成本,再选择以较低成本的方式进行计算,这样子在对in和exists的分析中,这两种写法会相互转换,那个统计的成本信息低则会选择那种方式。当然由于oracle的成本信息并不是全量统计得出来的结果,也会有一定的误差,再统计信息是需要人工(或定时)去执行统计的,如果操作大量数据后,没有进行统计,偏差也会很大。—https://www.linuxidc.com/Linux/2013-06/86053.htm
在mysql5.7中进行测试,由于数据的关系,只进行主查询是大表子查询是小表的测试:
可以看到的确是符合结论的,我觉得结论是正确的,只是不同的数据库或不同的数据库版本会进行不同的优化,所以,表现出来的结果不一定会符合结论。
用IN写出来的SQL的优点是比较容易写及清晰易懂,这比较适合现代软件开发的风格,如果效率相当,个人习惯使用in。
二、NOT IN跟NOT EXISTS
网上搜索到的结论是:如果查询语句使用了not in 那么内外表都进行全表扫描,没有用到索引;而not extsts 的子查询依然能用到表上的索引。所以无论那个表大,用not exists都比not in要快。
但是对于该结论,在Oracle11g中进行了测试,看执行计划,发现无论是那边的表大,cost是一样高的,而且执行计划完全相同(这部分应该也是数据库做了优化),发现即使是NOT IN,也是可以使用索引的(使用到了公司的数据库进行测试,图就不贴出来了)。
在MySQL5.7中进行测试:
首先,依然是进行主查询是大表,子查询是小表的测试:
可以看到用not in比not existss要快,看一下执行计划:
explain SELECT count(*) from wms_operation_record a where not EXISTS
(select 1 from wms_user b where b.user_username=a.user_name);
explain SELECT count(*) from wms_operation_record a where a.user_name not in
(select user_username from wms_user b);
使用not exists慢的原因是select_type是DEPENDENT SUBQUERY,也就是相关子查询,而使用not in是SUBQUERY,看官方的定义为:
SUBQUERY:子查询中的第一个SELECT;
DEPENDENT SUBQUERY:子查询中的第一个SELECT,取决于外面的查询 。
在使用not exists的sql中,外面查询出来的结果集有98549,所以子查询需要执行98549次,说明not exists也是对外表作loop循环,先进行主查询,再到子查询中过滤的,造成了使用not exists比较慢。
再看key值,发现他们用的索引是一致的,区别在于type值,not exists是ref,而not in是index,先看type值的含义:
访问类型。依次从好到差:system,const,eq_ref,ref,fulltext,ref_or_null,unique_subquery,index_subquery,range,index_merge,index,ALL,除了all之外,其他的type都可以使用到索引,除了index_merge之外,其他的type只可以用到一个索引
- system:表中只有一行数据或者是空表,且只能用于myisam和memory表。如果是Innodb引擎表,type列在这个情况通常都是all或者index
- const:使用唯一索引或者主键,返回记录一定是1行记录的等值where条件时,通常type是const。其他数据库也叫做唯一索引扫描
- eq_ref:出现在要连接过个表的查询计划中,驱动表只返回一行数据,且这行数据是第二个表的主键或者唯一索引,且必须为not null,唯一索引和主键是多列时,只有所有的列都用作比较时才会出现eq_ref
- ref:不像eq_ref那样要求连接顺序,也没有主键和唯一索引的要求,只要使用相等条件检索时就可能出现,常见与辅助索引的等值查找。或者多列主键、唯一索引中,使用第一个列之外的列作为等值查找也会出现,总之,返回数据不唯一的等值查找就可能出现。
- fulltext:全文索引检索,要注意,全文索引的优先级很高,若全文索引和普通索引同时存在时,mysql不管代价,优先选择使用全文索引
- ref_or_null:与ref方法类似,只是增加了null值的比较。实际用的不多。
- unique_subquery:用于where中的in形式子查询,子查询返回不重复值唯一值
- index_subquery:用于in形式子查询使用到了辅助索引或者in常数列表,子查询可能返回重复值,可以使用索引将子查询去重。
- range:索引范围扫描,常见于使用>,<,is null,between ,in ,like等运算符的查询中。
- index_merge:表示查询使用了两个以上的索引,最后取交集或者并集,常见and,or的条件使用了不同的索引,官方排序这个在ref_or_null之后,但是实际上由于要读取所个索引,性能可能大部分时间都不如range
- index:索引全表扫描,把索引从头到尾扫一遍,常见于使用索引列就可以处理不需要读取数据文件的查询、可以使用索引排序或者分组的查询。
- all:这个就是全表扫描数据文件,然后再在server层进行过滤返回符合要求的记录。
然后,再进行主查询是小表,子查询是大表的测试:
explain SELECT count(*) from wms_user a where not EXISTS
(select 1 from wms_operation_record b where a.user_username=b.user_name);
explain SELECT count(*) from wms_user a where a.user_username not in
(select user_name from wms_operation_record b);
对比执行计划,以上两个SQL都有相关子查询,使用了相同的索引,区别在于连接查询类型type值上的不同:
一个是ref一个是index_subquery,而ref是要优于index_subquery的。
而且rows都是219跟510,rows是mysql找到符合查询的每一点上标准的那些行而需要读取的行的平均数。
ref这一列显示了之前的表在key列记录的索引中查找值所用的列或常量,如果是使用的常数等值查询,这里会显示const,如果是连接查询,被驱动表的执行计划这里会显示驱动表的关联字段,如果是条件使用了表达式或者函数,或者条件列发生了内部隐式转换,这里可能显示为func。
最后的结论是:
无论是IN跟EXISTS、NOT IN跟NOT EXISTS,如果两个表中一个小,一个大,则子查询表大的用exists(not exists),子查询表小的用in(not in),就mysql5.7跟Oracle11g来说。
最后,特别的,null值需要使用is null或is not null进行比较,在使用not in时,如果子查询的结果集中包含了null值,那么会导致返回的结果不准确,返回了空结果集。
比如
select count(user_id) from wms_user where user_username not in ('a','aa');
结果为:
而
select count(user_id) from wms_user where user_username not in ('a','aa',null);
只要not in子句中包含null,就会返回空结果集,可以把上面的sql理解为:
select count(user_id) from wms_user where user_username!='a'
and user_username!='aa' and user_username!=null;
也可以使用外连接来替代not in:
select count(*) from wms_operation_record a where a.user_name
not in (select user_username from wms_user b);
select count(*) from wms_operation_record
left join wms_user on user_username=user_name where user_username is null;
在oracle中还可以:
select count(*) from wms_operation_record a,wms_user b
where a.user_name=b.user_username(+) and b.user_username is null;