SqlServer join和in的查询效率区别

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/karen_zy/article/details/88560354

之前做过一个下面的操作

select Id1 from table1 where id1 in (1,2,3,4,5...)

其中括号中的数组大概有1w+的量级。执行数据库语句的过程中出现了超过30s的command操作。后来换成了join查询,效率大幅度提升。

接下来比较一个in查询和join查询的区别。

  • in操作 :确定给定的值是否与子查询或列表中的值相匹配。in在查询的时候,首先查询子查询的表,然后将内表和外表做一个笛卡尔积,然后按照条件进行筛选。所以相对内表比较小的时候,in的速度较快。但是图上已经到万级别,所以不建议用,可是即使如此,table1是有索引的,按照table1是百万级的话,log(10000)*10000,也就是百万级的查询,对于sqlserver来说不是问题。但是我查询了30s,这就有问题了。稍等,我们详细分析,先来看看join查询。
  • join操作:join有三种处理方法。
    • nested loops join:嵌套join,时间复杂度是O(m*N),sqlserver在遇到万级的表时不会选择这个。
    • Merge join:合并join,时间复杂度是O(m+n),类似于归并排序的原理,在关联的属性是有序的条件下,合并的效率最高。
    • hash join:时间复杂度是O(m+n),以其中一张表的关联列为主键,建立临时hash表,另外一张表和hash进行匹配。这种hash临时表存储在内存中,比较消耗内存。
  • 对比之下,能用join的基本不要去用嵌套。
  • 但是回到最开始的问题,百万量级本应很快,慢的原因是什么呢?原因是在in 后面直接加的数组列表,没有在表中select出来。
展开阅读全文

没有更多推荐了,返回首页