在撰写SQL时,常常会烦恼要使用IN or EXISTS,在效能考量下,怎么最快的做出抉择呢?
这是我的阅读经验,周详的内容请参考最后的连结,有更详尽的介绍。
如果使用IN,执行过程将如同下列所示:
Select * from T1 where x in ( select y from T2 )
LIKE:
select *
from t1, ( select distinct y from t2 ) t2
where t1.x = t2.y;
如果使用EXISTS,如同上述的查询结果,我们改写成:
select * from t1 where exists ( select null from t2 where y = x )
LIKE:
for x in ( select * from t1 )
loop
if ( exists ( select null from t2 where y = x.x )
then
OUTPUT THE RECORD
end if
end loop
所以能想想其中差异,当子查询的表格是个储存巨大资料量的表格时,则使用第一个方法的效能将比较差,因为他的执行计画是使用SORT MERGE JOIN,相对的如果子查询的TABLE相对比较小,使用IN的执行效率应该比较佳。
而如果外部的表格(例如t1)是相对的储存大量资料,则?用第一个方法IN的效率将会比较好,如果你使用EXISTS,则除了会对t1这个bigtable进行full scan外,还会一笔一笔读取所有t1的资料列,效能自然较差。简单的一句话,外大内小=IN,外小内大=EXISTS,这是个实用的概略评估方法,在大部分的情况下是适用的。
有两个简单例子,以说明 “exists”和“in”的效率问题
1) select * from T1 where exists(select 1 from T2 where T1.a=T2.a) ;
T1数据量小而T2数据量非常大时,T1<<T2 时,1) 的查询效率高。
2) select * from T1 where T1.a in (select T2.a from T2) ;
T1数据量非常大而T2数据量小时,T1>>T2 时,2) 的查询效率高。
exists 用法:
请注意 1)句中的有颜色字体的部分 ,理解其含义;
其中 “select 1 from T2 where T1.a=T2.a” 相当于一个关联表查询,相当于
“select 1 from T1,T2 where T1.a=T2.a”
但是,如果你当当执行 1) 句括号里的语句,是会报语法错误的,这也是使用exists需要注意的地方。
“exists(xxx)”就表示括号里的语句能不能查出记录,它要查的记录是否存在。
因此“select 1”这里的 “1”其实是无关紧要的,换成“*”也没问题,它只在乎括号里的数据能不能查找出来,是否存在这样的记录,如果存在,这 1) 句的where 条件成立。
in 的用法:
继续引用上面的例子
“2) select * from T1 where T1.a in (select T2.a from T2) ”
这里的“in”后面括号里的语句搜索出来的字段的内容一定要相对应,一般来说,T1和T2这两个表的a字段表达的意义应该是一样的,否则这样查没什么意义。
打个比方:T1,T2表都有一个字段,表示工单号,但是T1表示工单号的字段名叫“ticketid”,T2则为“id”,但是其表达的意义是一样的,而且数据格式也是一样的。这时,用 2)的写法就可以这样:
“select * from T1 where T1.ticketid in (select T2.id from T2) ”
Select name from employee where name not in (select name from student);
Select name from employee where not exists (select name from student);
第一句SQL语句的执行效率不如第二句。
通过使用EXISTS,Oracle会首先检查主查询,然后运行子查询直到它找到第一个匹配项,这就节省了时间。Oracle在执行IN子查询时,首先执行子查询,并将获得的结果列表存放在一个加了索引的临时表中。在执行子查询之前,系统先将主查询挂起,待子查询执行完毕,存放在临时表中以后再执行主查询。这也就是使用EXISTS比使用IN通常查询速度快的原因。
IN(...)里面的列表 "数据量大 "的话,恐怕楼主得注意限制哟:)
9i的限制是1000~~~~不然会出错的