多年以来,商业数据库生产商一直致力于提高数据库的查询性能。尽管他们持续地付出努力和辛勤地工作,我们还是无法看到关系型数据库系统(RDBMS)在性能上有显著的提高。用户继续忍受性能低下的SQL语句,数据库专家们继续在SQL语句优化的泥潭中痛苦挣扎。
本文将介绍数据库查询优化器是如何工作的、为什么问题持续存在,并深入探讨数据库查询优化器将来的发展方向。
数据库查询优化器
数据库查询优化器是RDBMS服务器的一个组成部分。对于基于成本的优化,数据库查询优化器的任务是,通过产生可供选择的执行计划,找到最低估算成本的执行计划,来优化一条SQL语句。它在SQL语句性能表现上扮演了至关重要的角色。
当一条SQL语句被送入RDBMS服务器,它将会被解析并提交给数据库查询优化器。查询优化器将会进行查询重写和表达式评估,以产生可供选择的执行计划。产生可供选择的执行计划的数量,取决于在RDBMS中定义的计划空间(PLAN SPACE)大小。对于每个待选的执行计划,成本估计将被计算,带有最小成本的执行计划将被选取用来执行SQL语句。这种方法存在着两个无法解决的问题:无法产生全部可能的可选执行计划和成本估计的不准确。
新的SQL优化概念——外部SQL重写器
一个有经验的程序员,把有问题的SQL语句的速度提高数千倍是很常见的。凭着对具体数据库特征的了解,对SQL语句进行语法的重新构造。一个开发人员能够帮助查询优化器获得更好的执行计划,而这执行计划是查询优化器无法靠自身独立工作产生的。这给予我们一个启示,我们是否能通过计算机模拟人的行为,来实现同样的目的呢?
图1 ESR依据 数据库的特性重写和替代有问题的SQL语句
图1显示了外部SQL重写器(External SQL Rewriter--ESR)的概念,它能够基于现有数据库的特性,产生语义相等但语法不同的SQL语句。重写产生的SQL语句,将取代程序源代码中的源SQL语句。这样,当程序运行时(使用新的SQL语句),查询优化器将会被影响,而产生性能更好的执行计划。事实上,有经验的程序员和数据库管理员,一直在期盼着这个概念的出现。这个概念的新颖之处在于,将人类的知识和智能合并到一个计算机算法中,它能够打破计划空间(PLAN SPACE)限制的障碍,避免在寻找最佳SQL语句时不准确的成本估算。
ESR的优点是,它的优化并非一个基于实时,可用于重写和优化SQL语句的时间,在理论上是无限的。它可以比数据库的查询优化器尝试更多的待选SQL语句。用户花费多达一天的时间来处理关键SQL语句的性能问题,而ESR可以彻底寻找可能的待选执行计划。ESR的另外一个优点是,能够达到SQL性能提高的目的,而无需进行额外的统计,使数据库查询优化器的负载过重。因此,ESR使得提升整个数据库性能变得简单且安全。最后,ESR相对于数据库内部的查询优化器更加灵活:SQL重写的知识库可以很容易扩展,搜索空间可以通过硬件的升级来扩展,而毫无限制和缺点。
ESR是如何工作的?
为了让ESR能够优化SQL语句,必须避免数据库内部查询优化器限制所产生的障碍。另外,ESR必须拥有重写SQL语句的智能,并知道你数据库的特性,来提供待选的SQL语句。尽管达到上面的要求是困难的,但是开发一个这样的算法也不是不可能的。国内市场上已经由盈动华建公司代理推出了一个相当成熟的产品——LECCO Technology 的LECCO SQL Expert。
SQL语句可以被直接输入,或通过检查源代码来捕获有问题的SQL语句。当ESR收到SQL语句,一个递归的转换算法被应用来重写源SQL语句,产生每一个可能的语义等价的待选SQL语句。递归的SQL转换引擎,拥有内建的人工智能和SQL转换规则,它依照具体数据库的特性来重新构造SQL语句。
可扩展的计划空间
用户可自定义的限额让用户能够控制搜索空间。如果用户对在定义的限额内产生的结果不满意,或无法找到性能更好的待选SQL语句,用户可以提高限额来增加搜索空间,直到更多的待选SQL语句被找到。因此,ESR的计划空间的扩展,要比数据库查询优化器有弹性得多。另一个考虑周到的特性是,ESR可以在内部把具有重复执行计划的SQL语句给排除掉。这样不仅减少了人工反复尝试的成本,还保证了重写产生的每条SQL语句,都具有不同的执行计划和性能。
图2 ESR的简单图示
尽管ESR能够扩大它的计划空间和产生更多的待选SQL语句,它还是和数据库内部查询优化器一样,面对着不准确的成本估算的问题。没有实际地执行过每一条重写后的SQL语句,是根本无法知道,在所有待选SQL语句中到底哪一条的性能最好。因此,实际的途径是,测试运行所有的待选SQL语句。图2中的ESR例子使用了这一方法并附加提供了测试选项来找到性能最好的SQL语句。用户可以选择,什么时候来开始测试和允许进行多长时间的测试。此外,ESR的重要性还在于,整个优化过程不需要使用者具有数据库专家的经验。正如我们所知道的,不同的SQL语法可以引起数据库查询优化器产生不同的执行计划,因此ESR也必须具有模拟人工重写SQL语句的能力。递归式SQL语法转换技术,正是用来模拟人的SQL转换方法。它合并一系列有用的转换规则,并使用一次触发一条的方法来转换SQL语句。所有的转换规则是不互相依赖的,就像一个个密封的小门,只有在所有必需的条件都满足的情况下,某个密封门才会被打开。这保证了重写后的SQL语句与原SQL语句在语义上是等效的。
ESR技术的展望
随着硬件的升级,ESR能够合并更多的SQL转换规则,来处理数据库的新特性和更复杂的SQL语句,理论上,规则的数量是没有限制的。将来,随着数据库生产商在让用户影响数据库优化器方面更加开放,ESR将会在优化策略方面得到更多的控制。毫无疑问,ESR将会在分担数据库查询优化器的工作负荷上,扮演越来越重要的角色。
本文将介绍数据库查询优化器是如何工作的、为什么问题持续存在,并深入探讨数据库查询优化器将来的发展方向。
数据库查询优化器
数据库查询优化器是RDBMS服务器的一个组成部分。对于基于成本的优化,数据库查询优化器的任务是,通过产生可供选择的执行计划,找到最低估算成本的执行计划,来优化一条SQL语句。它在SQL语句性能表现上扮演了至关重要的角色。
当一条SQL语句被送入RDBMS服务器,它将会被解析并提交给数据库查询优化器。查询优化器将会进行查询重写和表达式评估,以产生可供选择的执行计划。产生可供选择的执行计划的数量,取决于在RDBMS中定义的计划空间(PLAN SPACE)大小。对于每个待选的执行计划,成本估计将被计算,带有最小成本的执行计划将被选取用来执行SQL语句。这种方法存在着两个无法解决的问题:无法产生全部可能的可选执行计划和成本估计的不准确。
新的SQL优化概念——外部SQL重写器
一个有经验的程序员,把有问题的SQL语句的速度提高数千倍是很常见的。凭着对具体数据库特征的了解,对SQL语句进行语法的重新构造。一个开发人员能够帮助查询优化器获得更好的执行计划,而这执行计划是查询优化器无法靠自身独立工作产生的。这给予我们一个启示,我们是否能通过计算机模拟人的行为,来实现同样的目的呢?
图1 ESR依据 数据库的特性重写和替代有问题的SQL语句
图1显示了外部SQL重写器(External SQL Rewriter--ESR)的概念,它能够基于现有数据库的特性,产生语义相等但语法不同的SQL语句。重写产生的SQL语句,将取代程序源代码中的源SQL语句。这样,当程序运行时(使用新的SQL语句),查询优化器将会被影响,而产生性能更好的执行计划。事实上,有经验的程序员和数据库管理员,一直在期盼着这个概念的出现。这个概念的新颖之处在于,将人类的知识和智能合并到一个计算机算法中,它能够打破计划空间(PLAN SPACE)限制的障碍,避免在寻找最佳SQL语句时不准确的成本估算。
ESR的优点是,它的优化并非一个基于实时,可用于重写和优化SQL语句的时间,在理论上是无限的。它可以比数据库的查询优化器尝试更多的待选SQL语句。用户花费多达一天的时间来处理关键SQL语句的性能问题,而ESR可以彻底寻找可能的待选执行计划。ESR的另外一个优点是,能够达到SQL性能提高的目的,而无需进行额外的统计,使数据库查询优化器的负载过重。因此,ESR使得提升整个数据库性能变得简单且安全。最后,ESR相对于数据库内部的查询优化器更加灵活:SQL重写的知识库可以很容易扩展,搜索空间可以通过硬件的升级来扩展,而毫无限制和缺点。
ESR是如何工作的?
为了让ESR能够优化SQL语句,必须避免数据库内部查询优化器限制所产生的障碍。另外,ESR必须拥有重写SQL语句的智能,并知道你数据库的特性,来提供待选的SQL语句。尽管达到上面的要求是困难的,但是开发一个这样的算法也不是不可能的。国内市场上已经由盈动华建公司代理推出了一个相当成熟的产品——LECCO Technology 的LECCO SQL Expert。
SQL语句可以被直接输入,或通过检查源代码来捕获有问题的SQL语句。当ESR收到SQL语句,一个递归的转换算法被应用来重写源SQL语句,产生每一个可能的语义等价的待选SQL语句。递归的SQL转换引擎,拥有内建的人工智能和SQL转换规则,它依照具体数据库的特性来重新构造SQL语句。
可扩展的计划空间
用户可自定义的限额让用户能够控制搜索空间。如果用户对在定义的限额内产生的结果不满意,或无法找到性能更好的待选SQL语句,用户可以提高限额来增加搜索空间,直到更多的待选SQL语句被找到。因此,ESR的计划空间的扩展,要比数据库查询优化器有弹性得多。另一个考虑周到的特性是,ESR可以在内部把具有重复执行计划的SQL语句给排除掉。这样不仅减少了人工反复尝试的成本,还保证了重写产生的每条SQL语句,都具有不同的执行计划和性能。
图2 ESR的简单图示
尽管ESR能够扩大它的计划空间和产生更多的待选SQL语句,它还是和数据库内部查询优化器一样,面对着不准确的成本估算的问题。没有实际地执行过每一条重写后的SQL语句,是根本无法知道,在所有待选SQL语句中到底哪一条的性能最好。因此,实际的途径是,测试运行所有的待选SQL语句。图2中的ESR例子使用了这一方法并附加提供了测试选项来找到性能最好的SQL语句。用户可以选择,什么时候来开始测试和允许进行多长时间的测试。此外,ESR的重要性还在于,整个优化过程不需要使用者具有数据库专家的经验。正如我们所知道的,不同的SQL语法可以引起数据库查询优化器产生不同的执行计划,因此ESR也必须具有模拟人工重写SQL语句的能力。递归式SQL语法转换技术,正是用来模拟人的SQL转换方法。它合并一系列有用的转换规则,并使用一次触发一条的方法来转换SQL语句。所有的转换规则是不互相依赖的,就像一个个密封的小门,只有在所有必需的条件都满足的情况下,某个密封门才会被打开。这保证了重写后的SQL语句与原SQL语句在语义上是等效的。
ESR技术的展望
随着硬件的升级,ESR能够合并更多的SQL转换规则,来处理数据库的新特性和更复杂的SQL语句,理论上,规则的数量是没有限制的。将来,随着数据库生产商在让用户影响数据库优化器方面更加开放,ESR将会在优化策略方面得到更多的控制。毫无疑问,ESR将会在分担数据库查询优化器的工作负荷上,扮演越来越重要的角色。