Nested loop join:
步骤:确定一个驱动表(outer table),另一个表为inner table,驱动表中的每一行与inner表中的相应记录JOIN。类似一个嵌套的循环。适用于驱动表的记录集比较小(<10000)而且inner表需要有有效的访问方法(Index)。需要注意的是:JOIN的顺序很重要,驱动表的记录集一定要小,返回结果集的响应时间是最快的。
对于被连接的数据子集较小的情况,嵌套循环连接是个较好的选择。
cost = outer access cost + (inner access cost * outer cardinality)
Hash join
步骤:将两个表中较小的一个在内存中构造一个HASH表(对JOIN KEY),扫描另一个表,同样对JOIN KEY进行HASH后探测是否可以JOIN。适用于记录集比较大的情况。需要注意的是:如果HASH表太大,无法一次构造在内存中,则分成若干个partition,写入磁盘的temporary segment,则会多一个写的代价,会降低效率。
散列连接是CBO 做大数据集连接时的常用方式
cost = (outer access cost * # of hash partitions) + inner access cost
Sort merge join
步骤:将两个表排序,然后将两个表合并。通常情况下,只有在以下情况发生时,才会使用此种JOIN方式:
通常情况下散列连接的效果都比排序合并连接要好,然而如果行源已经被排过序,在执行排序合并连接时不需要再排序了,这时排序合并连接的性能会优于散列连接。
1.RBO模式
2.不等价关联(>,=,<=,<>)
3.HASH_JOIN_ENABLED=false
4.数据源已排序
cost = (outer access cost * # of hash partitions) + inner access cost
nested loop一般用在连接的表中有索引,并且索引选择性较好的时候;
merge join 用在没有索引,并且数据已经排序的情况;
hash join在两个表的数据量差别很大的时候.
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23754390/viewspace-670126/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/23754390/viewspace-670126/