【问题探讨】exists & in 使用效率探究

最新推荐文章于 2024-09-06 00:41:09 发布

欲乘风，潇潇雨

最新推荐文章于 2024-09-06 00:41:09 发布

阅读量1.2k

点赞数

分类专栏： hive 文章标签： sql hive mysql oracle

本文链接：https://blog.csdn.net/weixin_42151880/article/details/127817422

版权

hive 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

问题主体

这几天碰到exists和in的替换使用，在网上也查阅了许多博客；
一致的结论为：

使用in的sql语句是先执行子查询，也就是先查询外表，再与内表进行关联；
而使用exists的sql语句是先查主表（外表） ,再与从表（内表）进行关联；
所以说：对于主表数据较多时，我们使用in速度比exist更快，反之，从表b较大时，使用exist插叙速度更快（都会使用索引）；
如果使用的是not in与not exists，直接使用not exists，因为not in 会进行全表扫描不走索引，not exists会走索引。

大家都是类似的结论，但是出问题了。。。

问题差异点

但是在我测试过程中，我并没有发现这种差距，
以下是我在hive/oracle中，测试exists和in的sql语句：

-- 首先说明一下：
t_org_admin 为小表，数据行数为：1787
T_KD_PurchaseBrlr 为大表，数据行数为：16771159

-- in 案例：
select a.fid
from t_org_admin a 
where a.fid in(
select b.FOrgUnitWensID 
from T_KD_PurchaseBrlr b
)
;  

-- exists 案例：
select a.fid
from t_org_admin a 
where exists(
select b.* 
from T_KD_PurchaseBrlr b 
where a.fid=b.FOrgUnitWensID
)
;