1. 选用适合的ORACLE 优化器
ORACLE 的优化器共有 3 种 :
a. RULE ( 基于规则 )
b. COST ( 基于成本 )
c. CHOOSE ( 选择性 )
设置缺省的优化器 , 可以通过对 init.ora 文件中 OPTIMIZER_MODE 参数的各种声明 , 如RULE,COST,CHOOSE,ALL_ROWS,FIRST_ROWS . 你当然也可在 SQL 句级或是会话 (session) 级对其进行覆盖.
为了使用基于成本的优化器 (CBO, Cost-Based Optimizer) , 你必须经常运行 analyze 命令 , 以增加数据库中的对象统计信息 (object statistics) 的准确性 .
如果数据库的优化器模式设置为选择性 (CHOOSE), 那么实际的优化器模式将和是否运行过 analyze 命令有关 . 如果 table 已经被 analyze 过 , 优化器模式将自动成为 CBO , 反之 , 数据库将采用 RULE 形式的优化器 .
在缺省情况下 ,ORACLE 采用 CHOOSE 优化器 , 为了避免那些不必要的全表扫描 (full table scan) , 你必须尽量避免使用 CHOOSE 优化器 , 而直接采用基于规则或者基于成本的优化器 .
2. 访问 Table 的方式
ORACLE 采用两种访问表中记录的方式 :
a. 全表扫描
全表扫描就是顺序地访问表中每条记录 . ORACLE 采用一次读入多个数据块 (database block) 的方式优化全表扫描 .
b. 通过 ROWID 访问表
你可以采用基于 ROWID 的访问方式情况 , 提高访问表的效率 , ROWID 包含了表中记录的物理位置信息..ORACLE 采用索引 (INDEX) 实现了数据和存放数据的物理位置 (ROWID) 之间的联系 . 通常索引提供了快速访问ROWID 的方法 , 因此那些基于索引列的查询就可以得到性能上的提高 .
3. 共享 SQL 语句
为了不重复解析相同的 SQL 语句 , 在第一次解析之后 , ORACLE 将 SQL 语句存放在内存中 . 这块位于系统全局区域 SGA(system global area) 的共享池 (shared buffer pool) 中的内存可以被所有的数据库用户共享 . 因此 , 当你执行一个 SQL 语句 ( 有时被称为一个游标 ) 时 , 如果它和之前的执行过的语句完全相同 , ORACLE 就能很快获得已经被解析的语句以及最好的执行路径 . ORACLE 的这个功能大大地提高了 SQL 的执行性能并节省了内存的使用 .
可惜的是 ORACLE 只对简单的表提供高速缓冲 (cache buffering) , 这个功能并不适用于多表连接查询 . 数据库管理员必须在 init.ora 中为这个区域设置合适的参数 , 当这个内存区域越大 , 就可以保留更多的语句 , 当然被共享的可能性也就越大了 . 当你向 ORACLE 提交一个 SQL 语句 ,ORACLE 会首先在这块内存中查找相同的语句 . 这里需要注明的是 ,ORACLE 对两者采取的是一种严格匹配 , 要达成共享 ,SQL 语句必须完全相同 ( 包括空格 , 换行等 ).
共享的语句必须满足三个条件 :
A. 字符级的比较 :
当前被执行的语句和共享池中的语句必须完全相同 .
例如 :
SELECT * FROM EMP; 和下列每一个都不同
SELECT * from EMP;
Select * From Emp;
SELECT * FROM EMP;
4. 选择最有效率的表名顺序 ( 只在基于规则的优化器中有效 )
ORACLE 的解析器按照从右到左的顺序处理 FROM 子句中的表名 , 因此 FROM 子句中写在最后的表 ( 基础表driving table) 将被最先处理 . 在 FROM 子句中包含多个表的情况下 , 你必须选择记录条数最少的表作为基础表 .当 ORACLE 处理多个表时 , 会运用排序及合并的方式连接它们 . 首先 , 扫描第一个表 (FROM 子句中最后的那个表 ) 并对记录进行派序 , 然后扫描第二个表 (FROM 子句中最后第二个表 ), 最后将所有从第二个表中检索出的记录与第一个表中合适记录进行合并 .
例如 :
表 TAB1 16,384 条记录
表 TAB2 1 条记录
选择 TAB2 作为基础表 ( 最好的方法 )
select count(*) from tab1,tab2 执行时间 0.96 秒
选择 TAB2 作为基础表 ( 不佳的方法 )
select count(*) from tab2,tab1 执行时间 26.09 秒
如果有 3 个以上的表连接查询 , 那就需要选择交叉表 (intersection table) 作为基础表 , 交叉表是指那个被其他表所引用的表 .
例如 :
EMP 表描述了 LOCATION 表和 CATEGORY 表的交集 .
SELECT * FROM LOCATION L ,CATEGORY C,EMP E
WHERE E.EMP_NO BETWEEN 1000 AND 2000
AND E.CAT_NO = C.CAT_NO
AND E.LOCN = L.LOCN
将比下列 SQL 更有效率
SELECT * FROM EMP E ,LOCATION L ,CATEGORY C
WHERE E.CAT_NO = C.CAT_NO
AND E.LOCN = L.LOCN
AND E.EMP_NO BETWEEN 1000 AND 2000
5. WHERE 子句中的连接顺序
ORACLE 采用自下而上的顺序解析 WHERE 子句 , 根据这个原理 , 表之间的连接必须写在其他 WHERE 条件之前, 那些可以过滤掉最大数量记录的条件必须写在 WHERE 子句的末尾 .
例如 :
( 低效 , 执行时间 156.3 秒 )
SELECT …FROM EMP E
WHERE SAL > 50000
AND JOB = ‘MANAGER’
AND 25 < (SELECT COUNT(*) FROM EMP WHERE MGR=E.EMPNO);
( 高效 , 执行时间 10.6 秒 )
SELECT …FROM EMP E
WHERE 25 < (SELECT COUNT(*) FROM EMP WHERE MGR=E.EMPNO)
AND SAL > 50000
AND JOB = ‘MANAGER’;
6. SELECT 子句中避免使用 ”*”
当你想在 SELECT 子句中列出所有的 COLUMN 时 , 使用动态 SQL 列引用 ”*” 是一个方便的方法 . 不幸的是 , 这是一个非常低效的方法 . 实际上 ,ORACLE 在解析的过程中 , 会将 ”*” 依次转换成所有的列名 , 这个工作是通过查询数据字典完成的 , 这意味着将耗费更多的时间 .
7. 减少访问数据库的次数
当执行每条 SQL 语句时 , ORACLE 在内部执行了许多工作 : 解析 SQL 语句 , 估算索引的利用率 , 绑定变量 , 读数据块等等 . 由此可见 , 减少访问数据库的次数 , 就能实际上减少 ORACLE 的工作量 .
例如 :
以下有两种方法可以检索出雇员号等于 0342 或 0291 的职员 .
方法 1 ( 低效 )
SELECT EMP_NAME , SALARY , GRADE FROM EMP
WHERE EMP_NO = 0342;
SELECT EMP_NAME , SALARY , GRADE FROM EMP
WHERE EMP_NO = 0291;
方法2 ( 高效)
SELECT A.EMP_NAME, A.SALARY, A.GRADE, B.EMP_NAME, B.SALARY, B.GRADE
FROM EMP A, EMP B
WHERE A.EMP_NO = 342
AND B.EMP_NO = 291;
8. 使用 DECODE 函数来减少处理时间
使用 DECODE 函数可以避免重复扫描相同记录或重复连接相同的表 .
例如 :
SELECT COUNT(*),SUM(SAL) FROM EMP
WHERE DEPT_NO = 0020
AND ENAME LIKE ‘SMITH%’;
SELECT COUNT(*) , SUM(SAL) FROM EMP
WHERE DEPT_NO = 0030
AND ENAME LIKE ‘SMITH%’;
你可以用 DECODE 函数高效地得到相同结果
SELECT COUNT(DECODE(DEPT_NO,0020,’X’,NULL)) D0020_COUNT,
COUNT(DECODE(DEPT_NO,0030,’X’,NULL)) D0030_COUNT,
SUM(DECODE(DEPT_NO,0020,SAL,NULL)) D0020_SAL,
SUM(DECODE(DEPT_NO,0030,SAL,NULL)) D0030_SAL
FROM EMP WHERE ENAME LIKE ‘SMITH%’;
类似的 ,DECODE 函数也可以运用于 GROUP BY 和 ORDER BY 子句中 .
9. 计算记录条数
和一般的观点相反, count(*) 比count(1) 稍快 , 当然如果可以通过索引检索, 对索引列的计数仍旧是最快的. 例如COUNT(EMPNO)
( 译者按: 在CSDN 论坛中, 曾经对此有过相当热烈的讨论, 作者的观点并不十分准确, 通过实际的测试, 上述三种方法并没有显著的性能差别)
10. 用Where 子句替换HAVING 子句
避免使用 HAVING 子句 , HAVING 只会在检索出所有记录之后才对结果集进行过滤 . 这个处理需要排序 , 总计等操作 . 如果能通过 WHERE 子句限制记录的数目 , 那就能减少这方面的开销 .
例如 :
低效 :
SELECT REGION,AVG(LOG_SIZE) FROM LOCATION
GROUP BY REGION
HAVING REGION REGION != ‘SYDNEY’
AND REGION != ‘PERTH’
高效
SELECT REGION , AVG(LOG_SIZE) FROM LOCATION
WHERE REGION REGION != ‘SYDNEY’
AND REGION != ‘PERTH’
GROUP BY REGION
(HAVING 中的条件一般用于对一些集合函数的比较 , 如 COUNT() 等等 . 除此而外 , 一般的条件应该写在 WHERE子句中 )
11. 减少对表的查询
在含有子查询的 SQL 语句中 , 要特别注意减少对表的查询 .
例如 :
低效
SELECT TAB_NAME FROM TABLES
WHERE TAB_NAME = (
SELECT TAB_NAME FROM TAB_COLUMNS
WHERE VERSION = 604
) AND DB_VER= (
SELECT DB_VER FROM TAB_COLUMNS
WHERE VERSION = 604
)
高效
SELECT TAB_NAME FROM TABLES
WHERE (TAB_NAME,DB_VER) = (
SELECT TAB_NAME,DB_VER FROM TAB_COLUMNS
WHERE VERSION = 604
)
12. 使用表的别名 (Alias)
当在 SQL 语句中连接多个表时 , 请使用表的别名并把别名前缀于每个 Column 上 . 这样一来 , 就可以减少解析的时间并减少那些由 Column 歧义引起的语法错误 .
(Column 歧义指的是由于 SQL 中不同的表具有相同的 Column 名 , 当 SQL 语句中出现这个 Column 时 ,SQL 解析器无法判断这个 Column 的归属 )
13. 用 EXISTS 替代 IN
在许多基于基础表的查询中 , 为了满足一个条件 , 往往需要对另一个表进行联接 . 在这种情况下 , 使用 EXISTS( 或NOT EXISTS) 通常将提高查询的效率 .
低效 :
SELECT * FROM EMP ( 基础表 )
WHERE EMPNO > 0
AND DEPTNO IN (
SELECT DEPTNO FROM DEPT
WHERE LOC = ‘MELB’
)
高效 :
SELECT *FROM EMP ( 基础表 )
WHERE EMPNO > 0
AND EXISTS (
SELECT ‘X’ FROM DEPT
WHERE DEPT.DEPTNO = EMP.DEPTNO AND LOC = ‘MELB’
)
14. 用 NOT EXISTS 替代 NOT IN
在子查询中 ,NOT IN 子句将执行一个内部的排序和合并 . 无论在哪种情况下 ,NOT IN 都是最低效的 ( 因为它对子查询中的表执行了一个全表遍历 ). 为了避免使用 NOT IN , 我们可以把它改写成外连接 (Outer Joins) 或 NOT EXISTS.
例如 :
SELECT … FROM EMP
WHERE DEPT_NO NOT IN (
SELECT DEPT_NO FROM DEPT
WHERE DEPT_CAT=’A’
);
方法一 : 高效
SELECT ….FROM EMP A,DEPT B
WHERE A.DEPT_NO = B.DEPT(+)
AND B.DEPT_NO IS NULL
AND B.DEPT_CAT(+) = ‘A’
方法二 : 最高效
SELECT …. FROM EMP E
WHERE NOT EXISTS (
SELECT ‘X’ FROM DEPT D
WHERE D.DEPT_NO = E.DEPT_NO AND DEPT_CAT = ‘A’
);
15. 用表连接替换 EXISTS
通常来说 , 采用表连接的方式比 EXISTS 更有效率
SELECT ENAME FROM EMP E
WHERE EXISTS (
SELECT ‘X’ FROM DEPT
WHERE DEPT_NO = E.DEPT_NO AND DEPT_CAT = ‘A’
);
更高效
SELECT ENAME FROM DEPT D,EMP E
WHERE E.DEPT_NO = D.DEPT_NO
AND DEPT_CAT = ‘A’ ;
( 在 RBO 的情况下 , 前者的执行路径包括 FILTER, 后者使用 NESTED LOOP)
16. 用 EXISTS 替换 DISTINCT
当提交一个包含一对多表信息 ( 比如部门表和雇员表 ) 的查询时 , 避免在 SELECT 子句中使用 DISTINCT. 一般可以考虑用 EXIST 替换
低效 :
SELECT DISTINCT DEPT_NO,DEPT_NAME FROM DEPT D,EMP E
WHERE D.DEPT_NO = E.DEPT_NO
高效 :
SELECT DEPT_NO,DEPT_NAME FROM DEPT D
WHERE EXISTS (
SELECT ‘X’ FROM EMP E
WHERE E.DEPT_NO = D.DEPT_NO
);
EXISTS 使查询更为迅速 , 因为 RDBMS 核心模块将在子查询的条件一旦满足后 , 立刻返回结果 .
17. 用索引提高效率
索引是表的一个概念部分 , 用来提高检索数据的效率 . 实际上 ,ORACLE 使用了一个复杂的自平衡 B-tree 结构 . 通常 , 通过索引查询数据比全表扫描要快 . 当 ORACLE 找出执行查询和 Update 语句的最佳路径时 , ORACLE 优化器将使用索引 . 同样在联结多个表时使用索引也可以提高效率 . 另一个使用索引的好处是 , 它提供了主键 (primary key) 的唯一性验证 .
除了那些 LONG 或 LONG RAW 数据类型 , 你可以索引几乎所有的列 . 通常 , 在大型表中使用索引特别有效 . 当然, 你也会发现 , 在扫描小表时 , 使用索引同样能提高效率 .
虽然使用索引能得到查询效率的提高 , 但是我们也必须注意到它的代价 . 索引需要空间来
存储 , 也需要定期维护 , 每当有记录在表中增减或索引列被修改时 , 索引本身也会被修改 . 这意味着每条记录的INSERT , DELETE , UPDATE 将为此多付出 4 , 5 次的磁盘 I/O . 因为索引需要额外的存储空间和处理 , 那些不必要的索引反而会使查询反应时间变慢 .
译者按 : 定期的重构索引是有必要的 .
ALTER INDEX <INDEXNAME> REBUILD <TABLESPACENAME>
18. 避免在索引列上使用计算
WHERE 子句中,如果索引列是函数的一部分.优化器将不使用索引而使用全表扫描.
低效:
SELECT … FROM DEPT
WHERE SAL * 12 > 25000;
高效 :
SELECT …FROM DEPT
WHERE SAL > 25000/12;
译者按 : 这是一个非常实用的规则,请务必牢记
19. 自动选择索引
如果表中有两个以上(包括两个)索引,其中有一个唯一性索引,而其他是非唯一性.
在这种情况下, ORACLE 将使用唯一性索引而完全忽略非唯一性索引.
举例 :
SELECT ENAME FROM EMP
WHERE EMPNO = 2326 AND DEPTNO = 20 ;
这里,只有 EMPNO 上的索引是唯一性的,所以 EMPNO 索引将用来检索记录.
TABLE ACCESS BY ROWID ON EMP
INDEX UNIQUE SCAN ON EMP_NO_IDX
20. 避免在索引列上使用 NOT
通常,我们要避免在索引列上使用 NOT, NOT 会产生在和在索引列上使用函数相同的影响 . 当 ORACLE ”遇到”NOT, 他就会停止使用索引转而执行全表扫描 .
低效 : ( 这里 , 不使用索引 )
SELECT … FROM DEPT
WHERE DEPT_CODE NOT = 0;
高效 : ( 这里 , 使用了索引 )
SELECT …FROM DEPT
WHERE DEPT_CODE > 0;
需要注意的是 , 在某些时候 , ORACLE 优化器会自动将 NOT 转化成相对应的关系操作符 .
NOT > to <=
NOT >= to <
NOT < to >=
NOT <= to >
译者按 : 在这个例子中 , 作者犯了一些错误 . 例子中的低效率 SQL 是不能被执行的 .
21. 用 UNION 替换 OR ( 适用于索引列 )
通常情况下 , 用 UNION 替换 WHERE 子句中的 OR 将会起到较好的效果 . 对索引列使用 OR 将造成全表扫描 . 注意 , 以上规则只针对多个索引列有效 . 如果有 column 没有被索引 , 查询效率可能会因为你没有选择 OR 而降低 .
在下面的例子中 , LOC_ID 和 REGION 上都建有索引 .
高效 :
SELECT LOC_ID , LOC_DESC , REGION FROM LOCATION
WHERE LOC_ID = 10
UNION
SELECT LOC_ID , LOC_DESC , REGION FROM LOCATION
WHERE REGION = “MELBOURNE”
低效 :
SELECT LOC_ID , LOC_DESC , REGION FROM LOCATION
WHERE LOC_ID = 10 OR REGION = “MELBOURNE”
如果你坚持要用 OR, 那就需要返回记录最少的索引列写在最前面 .
注意 :
WHERE KEY1 = 10 ( 返回最少记录 )
OR KEY2 = 20 ( 返回最多记录 )
ORACLE 内部将以上转换为
WHERE KEY1 = 10 AND
((NOT KEY1 = 10) AND KEY2 = 20)
22. 如果索引是建立在多个列上 , 只有在它的第一个列 (leading column) 被 where 子句引用时 , 优化器才会选择使用该索引 .
译者按 : 这也是一条简单而重要的规则
23. 用 UNION-ALL 替换 UNION ( 如果有可能的话 )
当 SQL 语句需要 UNION 两个查询结果集合时 , 这两个结果集合会以 UNION-ALL 的方式被合并 , 然后在输出最终结果前进行排序 .
如果用 UNION ALL 替代 UNION, 这样排序就不是必要了 . 效率就会因此得到提高 .
低效:
SELECT ACCT_NUM, BALANCE_AMT FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = ’31-DEC-95’
UNION
SELECT ACCT_NUM, BALANCE_AMT FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = ’31-DEC-95’
高效 :
SELECT ACCT_NUM, BALANCE_AMT FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = ’31-DEC-95’
UNION ALL
SELECT ACCT_NUM, BALANCE_AMT FROM DEBIT_TRANSACTIONS
WHERE TRAN_DATE = ’31-DEC-95’
需要注意的是, UNION ALL 将重复输出两个结果集合中相同记录 . 因此各位还是
要从业务需求分析使用 UNION ALL 的可行性 .
UNION 将对结果集合排序 , 这个操作会使用到 SORT_AREA_SIZE 这块内存 .
24. 用 WHERE 替代 ORDER BY
ORDER BY 子句只在两种严格的条件下使用索引 .
ORDER BY 中所有的列必须包含在相同的索引中并保持在索引中的排列顺序 .
ORDER BY 中所有的列必须定义为非空 .
WHERE 子句使用的索引和 ORDER BY 子句中所使用的索引不能并列 .
例如 :
表 DEPT 包含以下列 :
DEPT_CODE PK NOT NULL
DEPT_DESC NOT NULL
DEPT_TYPE NULL
非唯一性的索引 (DEPT_TYPE)
低效 : ( 索引不被使用 )
SELECT DEPT_CODE FROM DEPT
ORDER BY DEPT_TYPE
EXPLAIN PLAN:
SORT ORDER BY
TABLE ACCESS FULL
高效 : ( 使用索引 )
SELECT DEPT_CODE FROM DEPT
WHERE DEPT_TYPE > 0
EXPLAIN PLAN:
TABLE ACCESS BY ROWID ON EMP
INDEX RANGE SCAN ON DEPT_IDX
译者按 :ORDER BY 也能使用索引 ! 这的确是个容易被忽视的知识点 .
25. 避免改变索引列的类型
当比较不同数据类型的数据时 , ORACLE 自动对列进行简单的类型转换 .
假设 EMPNO 是一个数值类型的索引列 .
SELECT …FROM EMP
WHERE EMPNO = ‘123’
实际上 , 经过 ORACLE 类型转换 , 语句转化为 :
SELECT …FROM EMP
WHERE EMPNO = TO_NUMBER(‘123’)
幸运的是 , 类型转换没有发生在索引列上 , 索引的用途没有被改变 .
现在 , 假设 EMP_TYPE 是一个字符类型的索引列 .
SELECT …FROM EMP
WHERE EMP_TYPE = 123
这个语句被 ORACLE 转换为 :
SELECT …FROM EMP
WHERE TO_NUMBER(EMP_TYPE)=123
因为内部发生的类型转换 , 这个索引将不会被用到 !
译者按 : 为了避免 ORACLE 对你的 SQL 进行隐式的类型转换 , 最好把类型转换用显式表现出来 . 注意当字符和数值比较时 , ORACLE 会优先转换数值类型到字符类型 .