一、概述
随着数据库在各个领域的使用不断增长,越来越多的应用提出了高性能的要求。数据库性能调优是知识密集型的学科,需要综合考虑各种复杂的因素:数据库缓冲区的大小、索引的创建、语句改写等等。总之,数据库性能调优的目的在于使系统运行得更快。
调优需要有广泛的知识,这使得它既简单又复杂。说调优简单,是因为调优者不必纠缠于复杂的公式和规则。许多学术界和业界的研究者都在尝试将调优和查询处理建立在数学基础之上。称调优复杂,是因为如果要完全理解常识所依赖的原理,还需要对应用、数据库管理系统、操作系统以及硬件有广泛而深刻的理解。
数据库调优技术可以在不同的数据库系统中使用。如果需要调优数据库系统,最好掌握如下知识:1)查询处理、并发控制以及数据库恢复的知识;2)一些调优的基本原则。
这里主要描述索引调优。
二、索引调优
索引是建立在表上的一种数据组织,它能提高访问表中一条或多条记录的特定查询效率。因此,适当的索引调优是很重要的。
对于索引调优存在如下的几个误区:
误区 1:索引创建得越多越好?
实际上:创建的索引可能建立后从来未使用。索引的创建也是需要代价的,对于删除、,某些更新、插入操作,对于每个索引都要进行相应的删除、更新、插入操作。从而导致删除、某些更新、插入操作的效率变低。
误区 2:对于一个单表的查询,可以索引 1 进行过滤再使用索引 2 进行过滤?
实际上:假设查询语句如下 select * from t1where c1=1 and c2=2,c1列和 c2 列上分别建有索引 ic1、ic2。先使用 ic1(或 ic2)进行过滤,产生的结果集是临时数据,不再具有索引,所以不可使用 ic2(或 ic1)进行再次过滤。
索引优化的基本原则:
1.将索引和数据存放到不同的文件组
没有将表数据和索引数据存储到不同的文件组,而不加区别地将它们存储到同一文件组。这样,不但会造成 I/O 竞争,也为数据库的维护工作带来不变。
2.组合索引的使用
假设存在组合索引 it1 c1 c2(c1,c2),查询语句 select * from t1 where c1=1 and c2=2 能够使用该索引。查询语句 select * from t1 where c1=1 也能够使用该索引。但是,查询语句 select * from t1 where c2=2 不能够使用该索引,因为没有组合索引的引导列,即,要想使用 c2 列进行查找,必需出现 c1 等于某值。
根据 where 条件的不同,归纳如下:
1)c1=1 and c2=2:使用索引 it1c1c2 进行等值查找。
2)c1=1 andc2>2:使用索引 it1c1c2进行范围查找,可以有两种方法。
方法1:使用通过索引键(1,2)在 B 树中命中一条记录,然后向后扫描找出第一条符合条件的记录,从此记录往后的每一条记录都是符合条件的。这种方法的弊端在于:如果 c1=1 and c2=2 对应的记录数很多,会产生很多无效的扫描。
方法2:如果 c2 对应的 int 型数据,可以使用索引键(1,3)在 B 树中命中一条记录,从此记录往后的每一条记录都是符合条件的。本文中的例子均采用方法 1。
方法3:c1>1 and c2=2:因为索引的第一个列不是等于号的,索引即使后面出现了c2=2,也不能将 c2=2 应用于索引查找。这里,通过索引键(1,- ∞)在 B 树中命中一条记录,向后扫描找出第一条符合 c1>1 的记录,此后的每一条记录判断是否符合 c2=2,如果符合则输出,否则过滤掉。这里我们称为 c2=2 没有参与到索引运算中去。这种情况在实际应用中经常发现。
方法3:c1>1:通过索引键(1,- ∞) 在 B 树中命中一条记录,以此向后扫描找出第一条符合 c1>1 的记录,此后的每条记录都是符合条件的。
3.唯一索引与非唯一索引的差异
假设索引 int1c1(c1)是唯一索引,对于查询语句 select c1 from t1 where c1=1,达梦数据库使用索引键(1)命中 B 树中一条记录,命中之后直接返回该记录(因为是唯一索引,所以最多只能有一条 c1=1 的记录)。
假设索引 it1c2(c2)是非唯一索引,对于查询语句 select c2 from t2 where c2=2,达梦数据库使用索引键(2)命中 B 树中一条记录,返回该记录,并继续向后扫描,如果该记录是满足 c=2,返回该记录,继续扫描,直到遇到第一条不符合条件 c2=2 的记录。于是,我们可以得知,对于不存在重复值的列,创建唯一索引优于创建非唯一索引。