嵌套循环连接
嵌套循环连接一个外部数据集到内部数据集中,针对外部数据集的每一行数据,数据库会去匹配内部数据集中所有匹配谓词条件的行。如果这个时候内部数据集或者内部表有索引可用,那么数据库就会通过使用它来定位rowid来获取数据。
优化器什么时候考虑使用嵌套循环连接?
一般来说,嵌套循环连接在小表之间,并且连接条件是带有索引的情况下是最适用的。如果一个数据集只有一行数据,比如说主键列上的等式查询(exployee_id=101),那么这个链接就是一个简单查询。优化器会试着把最小的数据集放在前面,用它来做驱动表。
另一方面,优化器所收到的不同因素会决定它是否要使用嵌套循环连接。
比方说,在一次批处理的过程中,数据库会先从外部数据集中获取一些行,然后根据获取的数据集大小,优化器会决定是使用嵌套循环方式还是哈希连接方式来连接内部数据集。比如,当一次查询连接departments和employees表的时候,如果谓词条件指定的是employees表last_name这一列的值,那么数据库会在last_name上的索引读取足够的记录来判断数据集是否已经超过了一个内部阈值,如果没有超过,那么就使用嵌套循环连接来连接departments表,如果超过了,则使用hash join方式,也就是说会把剩下的内容hash到内存中,然后再来连接departments表。
另外,如果获取数据的方式(access path)不依赖于外部数据集的循环,那么这个结果可能是笛卡尔结果,也就是外部循环的每一次迭代,内部表都会产生同样的行集。可以使用其他的连接方式来连接两个独立的数据集来避免这种情况。
嵌套循环连接的工作方式