相信很多开发人员或DBA经常为exists与in到底谁效率比较高而感到困扰。 而exists和in是半连接(SEMI JOIN),什么是半连接?半连接就是两张表进行关联只返回一个表的数据。所以半连接也属于表连接,既然是表连接,我们就需要关心两表的大小以及两表之间究竟走什么连接方式,从而有目的地去控制两表之间的连接方式,才能随心所欲地优化SQL。 in/exists语句分析
-- in语句select a.* from aaa a where a.id in ( select id from bbb b);-- exists语句select a.* from aaa a where exists (select null from bbb b where b.id=a.id);
- IN操作相当于对inner table执行一个带distinct的子查询,然后得到的查询结果集再与outer table进行连接,连接方式的索引的使用就等同于普通的两表之间的连接。
- EXISTS操作相当于对outer table进行全表扫描,用从中检索到的每一行与inner table做循环匹配输出响应的符合条件的结果,其主要开销是对outer table的全表扫描,exists()会执行a.length次,它不缓存exists()的结果集,因为其结果集不重要,重要的是结果集中是否有记录。
/* 子表数据量小,外表数据量大*//* FirstMatch是mysql在处理半连接的时候使用的一种优化策略 */mysql> explain select count(*) from salaries a where a.emp_no in (select b.emp_no from employees b) ;+----+-------------+-------+------------+-------+---------------+---------+---------+--------------------+--------+---------