db2嵌套查询效率_利用散列连接从DB2通用数据库获得最佳性能

DB2 UDB 优化器可以在执行连接时选择不同方法:在缺省情况下,它在嵌套循环连接(nested loop join)与合并连接(merge join)之间选择。当设置了特殊环境变量时,它还可以选择散列连接(hash join)。散列连接可显著提高某些查询的性能,在决策支持系统(Decision Support System,DSS)环境中尤为突出,因为该环境中的查询比较复杂。本文旨在说明散列连接的工作原理以及如何正确地调优它以获得最佳性能。

首先我们将介绍阅读本文所必需的背景知识。我们将说明不同类型的连接方法,这些方法的工作原理,以及 DB2 UDB 如何针对特定的连接选择特定的方法。随后我们将说明调优并监控散列连接所需的元素。在这之后,我们将介绍我们做的几项实验和许多有趣的结果。最后是我们的结论。

1. 背景知识

两个表之间的连接是这样操作的:将一个表中的行与另一个表中的行并置在一起。另外,可以指定条件以定义并置哪些行。为执行这一操作,DB2 可以选择不同的连接方法。本节概括了不同连接方法的工作原理以及 DB2 如何针对特定连接选用连接方法。

1.1 连接方法

在连接两个表时,无论使用哪种连接方法,总有一个表被选为外表(outer table)而另一个表被选为内表(inner table)。优化器根据所选连接方法的成本和类型决定哪个是外表、哪个是内表。首先访问外表,并且只扫描一次。根据连接的类型和存在的索引,可以多次扫描内表。还有一点也很重要,要记住即使您试图连接两个以上的表,优化器也将每次只连接两个表,并在必要时保存中间结果。要理解散列连接方法的优势,先理解其它连接方法的工作原理也很重要。

嵌套循环连接:正如我们前面提到的那样,外表只被扫描一次。对于嵌套循环连接,要在内表中找到与外表中每一行相匹配的行有两种方法:

扫描内表。即,读取内表中的每一行,并且针对该行决定是否应将其与正在考虑的外表中的行相连接。

对内表上的连接列进行索引查找。当用于连接的谓词所包含的列在内表的索引中时,这种方法是可行的。这极大地减少了在内表中访问的行数。

在嵌套循环连接中,决定哪个是外表、哪个是内表非常重要,因为外表只扫描一次,而针对外表中的每一行,都要访问一次内表。正如前面提到的那样,优化器用成本模型来决定谁是外表谁是内表。优化器做此决定时会考虑几个因素:表的大小、缓冲、谓词、排序要求、是否存在索引、连接列不能是 LONG 或 LOB 字段。

合并连接:合并连接需要一个等式连接谓词(即具有 table1.column = table2.column 格式的谓词)。它还要求根据连接列对输入表进行排序。通过扫描现有索引或在进行连接之前对表进行排序就可以做到这一点。连接列不能是 LONG 或 LOB 字段。

同时扫描两个表,以查找匹配行。外表和内表都只扫描一次,除非外表中有重复的值,那样的话可能要再次扫描内表的某些部分。因为表通常只被扫描一次,所以决定哪个是外表、哪个是内表不象在其它连接方法中那么重要。尽管如此,由于可能有重复的值,所以优化器通常选择重复值较少的表作为外表。但是,优化器最终还是使用成本模型来决定谁是外表谁是内表。

散列连接:散列连接需要一个或多个等式连接谓词,其中每个谓词的列类型相同。就 CHAR 类型而言,长度必须相同。就 DECIMAL 类型而言,精度和小数位必须相同。同样,连接列不能是 LONG 或 LOB 字段。散列连接可处理多个等式谓词这一事实相对于合并连接是一大优势,后者只能处理一个等式谓词。

对于散列连接,首先扫描内表(也称为构建表,bulid table),表中

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值