总有人说exist效率比in高,但真得如此吗?
IN:
select * from t1 where x in ( select y from t2 )
观察该SQL可知,该查询需要先执行子查询,得到结果后执行外查询。因此该SQL可以转换为:
select * from t1 where x = y1;
select * from t1 where x = y2;
:
select * from t1 where x = yn;
即实际上首先找出子查询中所有可能的值,然后多次运行外查询。由此可见,有多少个y值,查询就会进行多少次,因此y值越少则越快。因此IN适合于外表大,而子查询返回的结果比较少的情况。
EXISTS:
select * from t1 where exists ( select null from t2 where y = x )
观察该SQL可知,该查询需要首先确定x的值,然后才能执行子查询。而一开始x的值无法可知,因此只能全表扫描。因此该SQL可以转换为:
for x in ( select * from t1 )
loop
if ( exists ( select null from t2 where y = x.x )
then
OUTPUT THE RECORD!
end if
end loop;
因此t1永远是个表扫描!因此t1绝对不能是个大表,而t2可以很大,因为y=x.x可以走t2.y的索引。
综合以上对IN/EXISTS的讨论,我们可以得出一个基本通用的结论:IN适合于外表大而内表小的情况;EXISTS则相反,适用于外表小而内表大的情况。