oracle sql优化

oracle中int是number的子类型,表示整型,number表示所有数字类型.varchar2(10)不是标准的sql类型,但和标准的varchar同义

**oracle循环取出每一条数据可以写:  for i in(select id,name,pwd from test where ...)

                                                     loop

                                                    insert into test2 select  * from test where id=i.id and name=i.name and pwd=i.pwd;

                                                     end loop;

oracle执行sql脚本:start 脚本路径

sq脚本中执行存储过程: begin pr_  ;end;

脚本示例:
--修改存储过程pr_deleteallblackuser(以前删除全部黑名单没有虚拟中心vcid的限制,现在修改后加上vcid的限制)  (--以上表示注释)

connect zxdb_cc/zxdb_cc@zxinngcc;  或connect zxdb_cc/zxdb_cc@zxinngcc_10.130.72.172;    连接数据库

oracle分页:

select * from (select a.*,rownum rn from test a where pagesize*pagecurrent>=rownum) where rn>pagesize*(pagecurrent-1)

mssql:

select top pagesize * from test where id not in(select top (pagecurrent-1)*pageSize  id from test)

1.编辑表的字段 
  修改一个列的数据类型(一般限于修改长度,大于现有长度):  
  alter table sp_contentconfig modify senddate varchar2(20)
  还可改为空alter table sp_config modify feetype null
2.增加一个列 
  alter table sp_serviceconfig add fathername1 varchar2(250) null
3.给列改名: 
  alter table test rename column name to names 
4.删除一个列
  alter table skate_test drop column author 
5.将一个表改名 
  alter table skate_test rename to test_sakte 
6.给表加注释
  comment on table test3.u_name is 'aaaa'

Oracle sql 性能优化调整    
1. 选用适合的ORACLE优化器
   ORACLE的优化器共有3种:
   a. RULE (基于规则)   b. COST (基于成本) c. CHOOSE (选择性)
   设置缺省的优化器,可以通过对init.ora文件中OPTIMIZER_MODE参数的各种声明,如   RULE,COST,CHOOSE,ALL_ROWS,FIRST_ROWS . 你当然也在SQL句级或是会话(session   )级对其进行覆盖。
   为了使用基于成本的优化器(CBO,Cost-Based Optimizer),你必须经常运行analyze     命令,以增加数据库中的对象统计信息(object statistics)的准确性。如果数据库的     优化器模式设置为选择性(CHOOSE),那么实际的优化器模式将和是否运行过analyze命     令有关。如果table已经被analyze过,优化器模式将自动成为CBO,反之数据库将采用       RULE形式的优化器。在缺省情况下,ORACLE采用CHOOSE优化器,为了避免那些不必要的全    表扫描(full table scan),你必须尽量避免使用CHOOSE优化器,而直接采用基于规则     或者基于成本的优化器。
2.访问Table的方式ORACLE 采用两种访问表中记录的方式:
  a.全表扫描
    全表扫描就是顺序地访问表中每条记录。ORACLE采用一次读入多个数据块(database     block)的方式优化全表扫描。
  b.通过ROWID访问表
    你可以采用基于ROWID的访问方式情况,提高访问表的效率,ROWID包含了表中记录的物    理位置信息……ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)    之间的联系。通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以    得到性能上的提高。
3.共享SQL语句
  为了不重复解析相同的SQL语句,在第一次解析之后,ORACLE将SQL语句存放在内存中。这  块位于系统全局区域SGA(system global area)的共享池(shared buffer pool)中的内  存可以被所有的数据库用户共享。因此当你执行一个SQL语句(有时被称为一个游标)时,  如果它和之前的执行过的语句完全相同,ORACLE就能很快获得已经被解析的语句以及最好  的执行路径。ORACLE的这个功能大大地提高了SQL的执行性能并节省了内存的使用。
  可惜的是ORACLE只对简单的表提供高速缓冲(cache buffering),这个功能并不适用于多   表连接查询。数据库管理员必须在init.ora中为这个区域设置合适的参数,当这个内存区  域越大,就可以保留更多的语句,当然被共享的可能性也就越大了。
  当你向ORACLE 提交一个SQL语句,ORACLE会首先在这块内存中查找相同的语句。这里需要  注明的是,ORACLE对两者采取的是一种严格匹配,要达成共享,SQL语句必须完全相同(包   括空格,换行等)。共享的语句必须满足三个条件:
  A.字符级的比较:
    当前被执行的语句和共享池中的语句必须完全相同。
    例如:
    SELECT * FROM EMP;
    和下列每一个都不同
    SELECT * from EMP;
    Select * From Emp;
    SELECT      *     FROM EMP;
  B.两个语句所指的对象必须完全相同:
    例如:
    用户     对象名           如何访问
    Jack       sal_limit          private synonym 
    Work_city      public synonym 
    Plant_detail     public synonym 
 Jill         sal_limit          private synonym 
    Work_city      public synonym 
    Plant_detail     table owner
 考虑一下下列SQL语句能否在这两个用户之间共享。
SQL 能否共享 原因
select max(sal_cap) from sal_limit; 不能 每个用户都有一个private synonym - sal_limit , 它们是不同的对象
select count(*0 from work_city where sdesc like 'NEW%'; 能 两个用户访问相同的对象public synonym - work_city 
select a.sdesc,b.location from work_city a , plant_detail b where a.city_id = b.city_id 不能 用户jack 通过private synonym访问plant_detail 而jill 是表的所有者,对象不同.

    C.      两个SQL语句中必须使用相同的名字的绑定变量(bind variables)
    例如:第一组的两个SQL语句是相同的(可以共享),而第二组中的两个语句是不同的(即使在运行时,赋于不同的绑定变量相同的值)
    a.
  select pin , name from people where pin = :blk1.pin;
  select pin , name from people where pin = :blk1.pin;
 b. 
 select pin , name from people where pin = :blk1.ot_ind;
 select pin , name from people where pin = :blk1.ov_ind;
4.选择最有效率的表名顺序(只在基于规则的优化器中有效)
  ORACLE的解析器按照从右到左的顺序处理FROM子句中的表名,因此FROM子句中写在最后的  表(基础表 driving table)将被最先处理。在FROM子句中包含多个表的情况下,你必须  选择记录条数最少的表作为基础表。
    表 TAB1 16384 条记录
    表 TAB2 1     条记录
    选择TAB2作为基础表 (最好的方法)
    select count(*) from tab1,tab2 
    如果有3个以上的表连接查询, 那就需要选择交叉表(intersection table)作为基础    表,交叉表是指那个被其他表所引用的表。
    例如:EMP表描述了LOCATION表和CATEGORY表的交集。
    SELECT * FROM LOCATION L,CATEGORY C,EMP E WHERE E.EMP_NO BETWEEN 1000 AND 200
5.WHERE子句中的连接顺序。    
  ORACLE采用自下而上的顺序解析WHERE子句,根据这个原理,表之间的连接必须写在其他  WHERE条件之前, 那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。
  例如:SELECT … FROM EMP E WHERE 25 < (SELECT COUNT(*) FROM EMP                         WHEREMGR=E.EMPNO) AND SAL>50000 AND JOB='MANAGER'
6.SELECT子句中避免使用 * 
 当你想在SELECT子句中列出所有的COLUMN时,使用*是一个非常低效的方法。ORACLE在解析   的过程中,会将* 依次转换成所有的列名,这个工作是通过查询数据字典完成的,这意味  着将耗费更多的时间。
7.减少访问数据库的次数(合并sql语句)
  SELECT A.EMP_NAME,A.SALARY,A.GRADE,B.EMP_NAME,B.SALARY,B.GRADE FROM EMP A,EMP B
  WHERE A.EMP_NO = 342 AND B.EMP_NO = 291
 注意:在SQL*Plus,SQL*Forms和Pro*C中重新设置ARRAYSIZE参数可以增加每次数据库访问        的检索数据量,建议值为200. 
8.使用DECODE函数来减少处理时间
 使用DECODE函数可以避免重复扫描相同记录或重复连接相同的表。
  例如:
   SELECT COUNT(*),SUM(SAL)
   FROM EMP
   WHERE DEPT_NO = 0020
   AND ENAME LIKE ‘SMITH%’;
   SELECT COUNT(*),SUM(SAL)
   FROM EMP
   WHERE DEPT_NO = 0030
   AND ENAME LIKE ‘SMITH%’;
  你可以用DECODE函数高效地得到相同结果
    SELECT COUNT(DECODE(DEPT_NO,0020,’X’,NULL)) D0020_COUNT,
        COUNT(DECODE(DEPT_NO,0030,’X’,NULL)) D0030_COUNT,
        SUM(DECODE(DEPT_NO,0020,SAL,NULL)) D0020_SAL,
        SUM(DECODE(DEPT_NO,0030,SAL,NULL)) D0030_SAL
        FROM EMP WHERE ENAME LIKE ‘SMITH%’;
 类似的,DECODE函数也可以运用于GROUP BY 和ORDER BY子句中。
9.整合简单,无关联的数据库访问(可读性差)
 如果你有几个简单的数据库查询语句,你可以把它们整合到一个查询中
  例如:
SELECT NAME FROM EMP WHERE EMP_NO = 1234
SELECT NAME FROM DPT WHERE DPT_NO = 10
SELECT NAME FROM CAT WHERE CAT_TYPE =‘RD’
面的3个查询可以被合并成一个:
SELECT E.NAME , D.NAME , C.NAME
FROM CAT C , DPT D , EMP E,DUAL X
WHERE NVL(‘X’,X.DUMMY) = NVL(‘X’,E.ROWID(+))
AND NVL(‘X’,X.DUMMY) = NVL(‘X’,D.ROWID(+))
AND NVL(‘X’,X.DUMMY) = NVL(‘X’,C.ROWID(+))
AND E.EMP_NO(+) = 1234
AND D.DEPT_NO(+) = 10
AND C.CAT_TYPE(+) = ‘RD‘
10.删除重复记录最高效的删除重复记录方法( 因为使用了ROWID)
   DELETE FROM EMP E WHERE E.ROWID > (SELECT MIN(X.ROWID) FROM EMP X
   WHERE X.EMP_NO = E.EMP_NO);
11.用TRUNCATE替代DELETE
  当删除表中的记录时,在通常情况下,回滚段(rollback segments )用来存放可以被   恢复的信息。如果你没有COMMIT事务,ORACLE会将数据恢复到删除之前的状态(准确地说    是恢复到执行删除命令之前的状况)而当运用TRUNCATE时,回滚段不再存放任何可被恢复    的信息。当命令运行后,数据不能被恢复。因此很少的资源被调用,执行时间也会很短。
  (TRUNCATE只在删除全表适用,TRUNCATE是DDL不是DML)
12.尽量多使用COMMIT(在使用COMMIT时必须要注意到事务的完整性)
  只要有可能,在程序中尽量多使用COMMIT,这样程序的性能得到提高,需求也会因COMMIT    所释放的资源而减少:COMMIT所释放的资源:
  a. 回滚段上用于恢复数据的信息。
   b.被程序语句获得的锁
  c.redo log buffer 中的空间
  d.ORACLE为管理上述3种资源中的内部花费
13.计算记录条数
  count(*)比count(1)稍快,当然如果可以通过索引检索对索引列的计数仍旧是最快的    例如 COUNT(EMPNO)
14.用Where子句替换HAVING子句
  避免使用HAVING子句,HAVING 只会在检索出所有记录之后才对结果集进行过滤。这个处   理需要排序,总计等操作。如果能通过WHERE子句限制记录的数目,那就能减少开销。
   例如:
  低效:SELECT REGION,AVG(LOG_SIZE) FROM LOCATION GROUP BY REGION HAVING 
        REGION != ‘SYDNEY’AND REGION != ‘PERTH’
  高效  SELECT REGION,AVG(LOG_SIZE) FROM LOCATION WHERE REGION != ‘SYDNEY’
        AND REGION != ‘PERTH’GROUP BY REGION
   HAVING 中的条件一般用于对一些集合函数的比较,如COUNT() 等等。 除此而   外,一般的条件应该写在WHERE子句中
15.减少对表的查询
 在含有子查询的SQL语句中,要特别注意减少对表的查询。
    例如:
 低效
          SELECT TAB_NAME
          FROM TABLES
          WHERE TAB_NAME = ( SELECT TAB_NAME 
                                FROM TAB_COLUMNS
                                WHERE VERSION = 604)
          AND DB_VER= ( SELECT DB_VER 
                           FROM TAB_COLUMNS
                           WHERE VERSION = 604)
    高效
          SELECT TAB_NAME
          FROM TABLES
          WHERE (TAB_NAME,DB_VER)
= ( SELECT TAB_NAME,DB_VER) 
                   FROM TAB_COLUMNS
                   WHERE VERSION = 604)
    Update 多个Column 例子:
 低效:
           UPDATE EMP
           SET EMP_CAT = (SELECT MAX(CATEGORY) FROM EMP_CATEGORIES),
17.使用表的别名(Alias)    
   当在SQL语句中连接多个表时,请使用表的别名并把别名前缀于每个Column上。
18.用EXISTS替代IN
  在许多基于基础表的查询中,为了满足一个条件,往往需要对另一个表进行联接。在这种   情况下,使用EXISTS(或NOT EXISTS)通常将提高查询的效率。
   低效:SELECT * FROM EMP (基础表) WHERE EMPNO > 0 AND DEPTNO IN (SELECT DEPTNO 
         FROM DEPT WHERE LOC = ‘MELB’)
   高效:SELECT * FROM EMP (基础表) WHERE EMPNO > 0 AND EXISTS (SELECT 'X' FROM            DEPT WHERE DEPT.DEPTNO = EMP.DEPTNO AND LOC = ‘MELB’)
   相对来说,用NOT EXISTS替换NOT IN 将更显著地提高效率。
19.用NOT EXISTS替代NOT IN
  在子查询中,NOT IN子句将执行一个内部的排序和合并。NOT IN对子查询中的表执行了一    个全表遍历,可以把它改写成外连接(Outer Joins)或NOT EXISTS.
  例如:SELECT …FROM EMP WHERE DEPT_NO NOT IN (SELECT DEPT_NO 
         FROM DEPT WHERE DEPT_CAT=’A’)
  为了提高效率。改写为:(方法一: 高效)
   SELECT ….FROM EMP A,DEPT B WHERE A.DEPT_NO = B.DEPT(+) AND B.DEPT_NO IS NULL
   AND B.DEPT_CAT(+) = ‘A’
 (方法二: 最高效)
   SELECT ….FROM EMP E WHERE NOT EXISTS (SELECT 'x' FROM DEPT D WHERE D.DEPT_NO     = E.DEPT_NO AND DEPT_CAT = ‘A’)
20.用表连接替换EXISTS
  通常来说 ,采用表连接的方式比EXISTS更有效率
   SELECT ENAME FROM EMP E WHERE EXISTS (SELECT 'x' FROM DEPT WHERE        DEPT_NO=E.DEPT_NO AND DEPT_CAT = ‘A’)
 (更高效)
   SELECT ENAME FROM DEPT D,EMP E WHERE E.DEPT_NO = D.DEPT_NO AND DEPT_CAT ='A'

21.用EXISTS替换DISTINCT
 当提交一个包含一对多表信息(比如部门表和雇员表)的查询时,避免在SELECT子句中使    用DISTINCT. 一般可以考虑用EXIST替换
 例如:低效:
  SELECT DISTINCT DEPT_NO,DEPT_NAME FROM DEPT D,EMP E WHERE D.DEPT_NO = E.DEPT_NO
 高效:
  SELECT DEPT_NO,DEPT_NAME FROM DEPT D WHERE EXISTS ( SELECT ‘X’FROM EMP E
  WHERE E.DEPT_NO = D.DEPT_NO)
25.用索引提高效率
    索引是表的一个概念部分,用来提高检索数据的效率。 实际上,ORACLE使用了一个复杂的自平衡B-tree结构。 通常,通过索引查询数据比全表扫描要快。 当ORACLE找出执行查询和Update语句的最佳路径时, ORACLE优化器将使用索引。 同样在联结多个表时使用索引也可以提高效率。 另一个使用索引的好处是,它提供了主键(primary key)的唯一性验证。
    除了那些LONG或LONG RAW数据类型, 你可以索引几乎所有的列。 通常, 在大型表中使用索引特别有效。 当然,你也会发现, 在扫描小表时,使用索引同样能提高效率。
    虽然使用索引能得到查询效率的提高,但是我们也必须注意到它的代价。 索引需要空间来存储,也需要定期维护, 每当有记录在表中增减或索引列被修改时, 索引本身也会被修改。 这意味着每条记录的INSERT , DELETE , UPDATE将为此多付出4 , 5 次的磁盘I/O . 因为索引需要额外的存储空间和处理,那些不必要的索引反而会使查询反应时间变慢。
    译者按:定期的重构索引是有必要的。
    ALTER INDEX <INDEXNAME> REBUILD <TABLESPACENAME>
    26.       索引的操作
    ORACLE对索引有两种访问模式。
    索引唯一扫描 ( INDEX UNIQUE SCAN)
    大多数情况下, 优化器通过WHERE子句访问INDEX.
    例如:
 表LODGING有两个索引 : 建立在LODGING列上的唯一性索引LODGING_PK和建立在MANAGER列上的非唯一性索引LODGING$MANAGER.
    SELECT * 
 FROM LODGING 
 WHERE LODGING = ‘ROSE HILL’;
    在内部 , 上述SQL将被分成两步执行, 首先 , LODGING_PK 索引将通过索引唯一扫描的方式被访问 , 获得相对应的ROWID, 通过ROWID访问表的方式执行下一步检索。
    如果被检索返回的列包括在INDEX列中,ORACLE将不执行第二步的处理(通过ROWID访问表)。 因为检索数据保存在索引中, 单单访问索引就可以完全满足查询结果。
    下面SQL只需要INDEX UNIQUE SCAN 操作。
    SELECT LODGING 
 FROM LODGING 
 WHERE LODGING = ‘ROSE HILL’;
    索引范围查询(INDEX RANGE SCAN)
    适用于两种情况:
 1.       基于一个范围的检索
 2.       基于非唯一性索引的检索
    例1:
    SELECT LODGING FROM LODGING WHERE LODGING LIKE ‘M%’;
    WHERE子句条件包括一系列值, ORACLE将通过索引范围查询的方式查询LODGING_PK . 由于索引范围查询将返回一组值, 它的效率就要比索引唯一扫描低一些。
    例2:
    SELECT LODGING 
 FROM LODGING 
 WHERE MANAGER = ‘BILL GATES’;
    这个SQL的执行分两步, LODGING$MANAGER的索引范围查询(得到所有符合条件记录的ROWID) 和下一步同过ROWID访问表得到LODGING列的值。 由于LODGING$MANAGER是一个非唯一性的索引,数据库不能对它执行索引唯一扫描。
    由于SQL返回LODGING列,而它并不存在于LODGING$MANAGER索引中, 所以在索引范围查询后会执行一个通过ROWID访问表的操作。
    WHERE子句中, 如果索引列所对应的值的第一个字符由通配符(WILDCARD)开始, 索引将不被采用。在这种情况下,ORACLE将使用全表扫描。
    SELECT LODGING 
 FROM LODGING 
 WHERE MANAGER LIKE ‘%HANMAN’;

Oracle语句优化53个规则详解(6)
27.       基础表的选择    基础表(Driving Table)是指被最先访问的表(通常以全表扫描的方式被访问)。 根据优化器的不同, SQL语句中基础表的选择是不一样的。
    如果你使用的是CBO (COST BASED OPTIMIZER),优化器会检查SQL语句中的每个表的物理大小,索引的状态,然后选用花费最低的执行路径。
    如果你用RBO (RULE BASED OPTIMIZER) , 并且所有的连接条件都有索引对应, 在这种情况下, 基础表就是FROM 子句中列在最后的那个表。
    举例:
 SELECT A.NAME , B.MANAGER 
 FROM WORKER A,
     LODGING B 
 WHERE A.LODGING = B.LODING;
 由于LODGING表的LODING列上有一个索引, 而且WORKER表中没有相比较的索引, WORKER表将被作为查询中的基础表。
    28.       多个平等的索引
 当SQL语句的执行路径可以使用分布在多个表上的多个索引时, ORACLE会同时使用多个索引并在运行时对它们的记录进行合并, 检索出仅对全部索引有效的记录。
    在ORACLE选择执行路径时,唯一性索引的等级高于非唯一性索引。 然而这个规则只有当WHERE子句中索引列和常量比较才有效。如果索引列和其他表的索引类相比较。 这种子句在优化器中的等级是非常低的。
    如果不同表中两个想同等级的索引将被引用, FROM子句中表的顺序将决定哪个会被率先使用。 FROM子句中最后的表的索引将有最高的优先级。
    如果相同表中两个想同等级的索引将被引用, WHERE子句中最先被引用的索引将有最高的优先级。
    举例:
 DEPTNO上有一个非唯一性索引,EMP_CAT也有一个非唯一性索引。
    SELECT ENAME,
 FROM EMP 
 WHERE DEPT_NO = 20 
 AND EMP_CAT = ‘A’;
 这里,DEPTNO索引将被最先检索,然后同EMP_CAT索引检索出的记录进行合并。 执行路径如下:
    TABLE ACCESS BY ROWID ON EMP 
  AND-EQUAL 
   INDEX RANGE SCAN ON DEPT_IDX 
   INDEX RANGE SCAN ON CAT_IDX
    29.        等式比较和范围比较
 当WHERE子句中有索引列, ORACLE不能合并它们,ORACLE将用范围比较。
    举例:
 DEPTNO上有一个非唯一性索引,EMP_CAT也有一个非唯一性索引。
    SELECT ENAME 
 FROM EMP 
 WHERE DEPTNO > 20 
 AND EMP_CAT = ‘A’;
    这里只有EMP_CAT索引被用到,然后所有的记录将逐条与DEPTNO条件进行比较。 执行路径如下:
 TABLE ACCESS BY ROWID ON EMP 
  INDEX RANGE SCAN ON CAT_IDX
    30.       不明确的索引等级
    当ORACLE无法判断索引的等级高低差别,优化器将只使用一个索引,它就是在WHERE子句中被列在最前面的。
    举例:
 DEPTNO上有一个非唯一性索引,EMP_CAT也有一个非唯一性索引。
    SELECT ENAME 
 FROM EMP 
 WHERE DEPTNO > 20 
 AND EMP_CAT > ‘A’;
    这里, ORACLE只用到了DEPT_NO索引。 执行路径如下:
    TABLE ACCESS BY ROWID ON EMP 
  INDEX RANGE SCAN ON DEPT_IDX
    译者按:我们来试一下以下这种情况:
 SQL> select index_name, uniqueness from user_indexes where table_name = 'EMP';
    INDEX_NAME                     UNIQUENES
 ------------------------------ ---------
    EMPNO                          UNIQUE 
 EMPTYPE                        NONUNIQUE
    SQL> select * from emp where empno >= 2 and emp_type = 'A' ;
    no rows selected
    Execution Plan
 ----------------------------------------------------------
    0      SELECT STATEMENT Optimizer=CHOOSE 
 1    0   TABLE ACCESS (BY INDEX ROWID) OF 'EMP' 
 2    1     INDEX (RANGE SCAN) OF 'EMPTYPE' (NON-UNIQUE)
    虽然EMPNO是唯一性索引,但是由于它所做的是范围比较, 等级要比非唯一性索引的等式比较低!
    31.       强制索引失效
    如果两个或以上索引具有相同的等级,你可以强制命令ORACLE优化器使用其中的一个(通过它,检索出的记录数量少) .
    举例:
    SELECT ENAME 
 FROM EMP 
 WHERE EMPNO = 7935

 AND DEPTNO + 0 = 10    /*DEPTNO上的索引将失效*/ 
 AND EMP_TYPE || ‘’ = ‘A’  /*EMP_TYPE上的索引将失效*/
    这是一种相当直接的提高查询效率的办法。 但是你必须谨慎考虑这种策略,一般来说,只有在你希望单独优化几个SQL时才能采用它。
    这里有一个例子关于何时采用这种策略,
    假设在EMP表的EMP_TYPE列上有一个非唯一性的索引而EMP_CLASS上没有索引。
    SELECT ENAME 
 FROM EMP 
 WHERE EMP_TYPE = ‘A’
 AND EMP_CLASS = ‘X’;
    优化器会注意到EMP_TYPE上的索引并使用它。 这是目前唯一的选择。 如果,一段时间以后, 另一个非唯一性建立在EMP_CLASS上,优化器必须对两个索引进行选择,在通常情况下,优化器将使用两个索引并在他们的结果集合上执行排序及合并。 然而,如果其中一个索引(EMP_TYPE)接近于唯一性而另一个索引(EMP_CLASS)上有几千个重复的值。 排序及合并就会成为一种不必要的负担。 在这种情况下,你希望使优化器屏蔽掉EMP_CLASS索引。
    用下面的方案就可以解决问题。
    SELECT ENAME 
 FROM EMP 
 WHERE EMP_TYPE = ‘A’
 AND EMP_CLASS||‘’ = ‘X’;

Oracle语句优化53个规则详解(7)
32.       避免在索引列上使用计算。    WHERE子句中,如果索引列是函数的一部分。优化器将不使用索引而使用全表扫描。
    举例:
    低效:
 SELECT …
    FROM DEPT 
WHERE SAL * 12 > 25000;
    高效:
 SELECT …
    FROM DEPT 
 WHERE SAL > 25000/12;
    译者按:这是一个非常实用的规则,请务必牢记
    33.       自动选择索引
 如果表中有两个以上(包括两个)索引,其中有一个唯一性索引,而其他是非唯一性。
    在这种情况下,ORACLE将使用唯一性索引而完全忽略非唯一性索引。
    举例:
 SELECT ENAME 
 FROM EMP 
 WHERE EMPNO = 2326 
 AND DEPTNO = 20 ;
    这里,只有EMPNO上的索引是唯一性的,所以EMPNO索引将用来检索记录。
    TABLE ACCESS BY ROWID ON EMP 
  INDEX UNIQUE SCAN ON EMP_NO_IDX
    34.       避免在索引列上使用NOT
 通常,我们要避免在索引列上使用NOT, NOT会产生在和在索引列上使用函数相同的影响。 当ORACLE“遇到”NOT,他就会停止使用索引转而执行全表扫描。
    举例:
    低效: (这里,不使用索引)
    SELECT …
    FROM DEPT 
 WHERE DEPT_CODE NOT = 0;
    高效: (这里,使用了索引)
    SELECT …
    FROM DEPT 
 WHERE DEPT_CODE > 0;
    需要注意的是,在某些时候, ORACLE优化器会自动将NOT转化成相对应的关系操作符。
    NOT > to <= 
 NOT >= to < 
 NOT < to >= 
 NOT <= to >
    译者按:在这个例子中,作者犯了一些错误。 例子中的低效率SQL是不能被执行的。
    我做了一些测试:
    SQL> select * from emp where NOT empno > 1;
 no rows selected 
 Execution Plan
 ----------------------------------------------------------
    0      SELECT STATEMENT Optimizer=CHOOSE 
 1    0   TABLE ACCESS (BY INDEX ROWID) OF 'EMP' 
 2    1     INDEX (RANGE SCAN) OF 'EMPNO' (UNIQUE)
    SQL> select * from emp where empno <= 1;
 no rows selected 
 Execution Plan
 ----------------------------------------------------------
    0      SELECT STATEMENT Optimizer=CHOOSE 
 1    0   TABLE ACCESS (BY INDEX ROWID) OF 'EMP' 
 2    1     INDEX (RANGE SCAN) OF 'EMPNO' (UNIQUE)
    两者的效率完全一样,也许这符合作者关于“ 在某些时候, ORACLE优化器会自动将NOT转化成相对应的关系操作符” 的观点。
    35.       用>=替代>
    如果DEPTNO上有一个索引,
    高效:
    SELECT * 
 FROM EMP 
 WHERE DEPTNO >=4
    低效:
    SELECT * 
 FROM EMP 
 WHERE DEPTNO >3
    两者的区别在于, 前者DBMS将直接跳到第一个DEPT等于4的记录而后者将首先定位到DEPTNO=3的记录并且向前扫描到第一个DEPT大于3的记录。

Oracle语句优化53个规则详解(8)
36.       用UNION替换OR (适用于索引列)    通常情况下, 用UNION替换WHERE子句中的OR将会起到较好的效果。 对索引列使用OR将造成全表扫描。注意, 以上规则只针对多个索引列有效。 如果有column没有被索引, 查询效率可能会因为你没有选择OR而降低。
    在下面的例子中, LOC_ID 和REGION上都建有索引。
    高效:
 SELECT LOC_ID , LOC_DESC , REGION 
 FROM LOCATION 
 WHERE LOC_ID = 10 
 UNION 
 SELECT LOC_ID , LOC_DESC , REGION 
 FROM LOCATION 
 WHERE REGION = “MELBOURNE”
    低效:
 SELECT LOC_ID , LOC_DESC , REGION 
 FROM LOCATION 
 WHERE LOC_ID = 10 OR REGION = “MELBOURNE”
    如果你坚持要用OR, 那就需要返回记录最少的索引列写在最前面。
    注意:
    WHERE KEY1 = 10   (返回最少记录)
    OR KEY2 = 20        (返回最多记录)
    ORACLE 内部将以上转换为
 WHERE KEY1 = 10 AND((NOT KEY1 = 10) AND KEY2 = 20)
    译者按:
    下面的测试数据仅供参考: (a = 1003 返回一条记录 , b = 1 返回1003条记录)
    SQL> select * from unionvsor /*1st test*/ 
 2   where a = 1003 or b = 1;
 1003 rows selected. 
 Execution Plan
 ----------------------------------------------------------
    0      SELECT STATEMENT Optimizer=CHOOSE 
 1    0   CONCATENATION 
 2    1     TABLE ACCESS (BY INDEX ROWID) OF 'UNIONVSOR' 
 3    2       INDEX (RANGE SCAN) OF 'UB' (NON-UNIQUE)
    4    1     TABLE ACCESS (BY INDEX ROWID) OF 'UNIONVSOR' 
 5    4       INDEX (RANGE SCAN) OF 'UA' (NON-UNIQUE)
    Statistics
 ----------------------------------------------------------
    0 recursive calls 
 0 db block gets 
 144 consistent gets 
 0 physical reads 
 0 redo size 
 63749 bytes sent via SQL*Net to client 
 7751 bytes received via SQL*Net from client 
 68 SQL*Net roundtrips to/from client 
 0 sorts (memory)
    0 sorts (disk)
    1003 rows processed 
 SQL> select * from unionvsor /*2nd test*/ 
 2 where b = 1 or a = 1003 ;
 1003 rows selected. 
 Execution Plan
 ----------------------------------------------------------
    0      SELECT STATEMENT Optimizer=CHOOSE 
 1    0   CONCATENATION 
 2    1     TABLE ACCESS (BY INDEX ROWID) OF 'UNIONVSOR' 
 3    2       INDEX (RANGE SCAN) OF 'UA' (NON-UNIQUE)
    4    1     TABLE ACCESS (BY INDEX ROWID) OF 'UNIONVSOR' 
 5    4       INDEX (RANGE SCAN) OF 'UB' (NON-UNIQUE)
    Statistics
 ----------------------------------------------------------
    0 recursive calls 
 0 db block gets 
 143 consistent gets 
 0 physical reads 
 0 redo size 
 63749 bytes sent via SQL*Net to client 
 7751 bytes received via SQL*Net from client 
 68 SQL*Net roundtrips to/from client 0 sorts (memory)
    0 sorts (disk)
    1003 rows processed
    SQL> select * from unionvsor /*3rd test*/ 
 2 where a = 1003 
 3 union 
 4   select * from unionvsor 
 5   where b = 1;
 1003 rows selected. Execution Plan
 ----------------------------------------------------------
    0      SELECT STATEMENT Optimizer=CHOOSE 
 1    0   SORT (UNIQUE)
    2    1     UNION-ALL 
 3    2       TABLE ACCESS (BY INDEX ROWID) OF 'UNIONVSOR' 
 4    3         INDEX (RANGE SCAN) OF 'UA' (NON-UNIQUE)
    5    2       TABLE ACCESS (BY INDEX ROWID) OF 'UNIONVSOR' 
 6    5         INDEX (RANGE SCAN) OF 'UB' (NON-UNIQUE)
    Statistics
 ----------------------------------------------------------
    0 recursive calls 
 0 db block gets 
 10 consistent gets 
 0 physical reads 
 0 redo size 
 63735 bytes sent via SQL*Net to client 
 7751 bytes received via SQL*Net from client 
 68 SQL*Net roundtrips to/from client 1 sorts (memory)
    0 sorts (disk)
    1003 rows processed
 用UNION的效果可以从consistent gets和 SQL*NET的数据交换量的减少看出
    37.       用IN来替换OR
    下面的查询可以被更有效率的语句替换:
    低效:
    SELECT…
    FROM LOCATION 
 WHERE LOC_ID = 10 
 OR     LOC_ID = 20 
 OR     LOC_ID = 30
    高效:
 SELECT…
    FROM LOCATION 
 WHERE LOC_IN IN (10,20,30);
    译者按:这是一条简单易记的规则,但是实际的执行效果还须检验,在ORACLE8i下,两者的执行路径似乎是相同的。
38.       避免在索引列上使用IS NULL和IS NOT NULL 避免在索引中使用任何可以为空的列,ORACLE将无法使用该索引。对于单列索引,如果列包含空值,索引中将不存在此记录。 对于复合索引,如果每个列都为空,索引中同样不存在此记录。 如果至少有一个列不为空,则记录存在于索引中。
    举例:
 如果唯一性索引建立在表的A列和B列上, 并且表中存在一条记录的A,B值为(123,null) , ORACLE将不接受下一条具有相同A,B值(123,null)的记录(插入)。 然而如果所有的索引列都为空,ORACLE将认为整个键值为空而空不等于空。 因此你可以插入1000条具有相同键值的记录,当然它们都是空!
    因为空值不存在于索引列中,所以WHERE子句中对索引列进行空值比较将使ORACLE停用该索引。
    举例:
    低效: (索引失效)
    SELECT …
    FROM DEPARTMENT 
 WHERE DEPT_CODE IS NOT NULL;
    高效: (索引有效)
    SELECT …
    FROM DEPARTMENT 
 WHERE DEPT_CODE >=0;
 39.       总是使用索引的第一个列
 如果索引是建立在多个列上, 只有在它的第一个列(leading column)被where子句引用时,优化器才会选择使用该索引。
    译者按:这也是一条简单而重要的规则。 见以下实例。
    SQL> create table multiindexusage ( inda number , indb number , descr varchar2(10));
 Table created.
 SQL> create index multindex on multiindexusage(inda,indb);
 Index created. 
 SQL> set autotrace traceonly
    SQL> select * from multiindexusage where inda = 1;
 Execution Plan
 ----------------------------------------------------------
    0      SELECT STATEMENT Optimizer=CHOOSE 
 1    0   TABLE ACCESS (BY INDEX ROWID) OF 'MULTIINDEXUSAGE' 
 2    1     INDEX (RANGE SCAN) OF 'MULTINDEX' (NON-UNIQUE)
    SQL> select * from multiindexusage where indb = 1;
 Execution Plan
 ----------------------------------------------------------
    0      SELECT STATEMENT Optimizer=CHOOSE 
 1    0   TABLE ACCESS (FULL) OF 'MULTIINDEXUSAGE'
    很明显, 当仅引用索引的第二个列时,优化器使用了全表扫描而忽略了索引
    40.       ORACLE内部操作
 当执行查询时,ORACLE采用了内部的操作。 下表显示了几种重要的内部操作。
ORACLE Clause 内部操作
ORDER BY SORT ORDER BY
UNION UNION-ALL
MINUS MINUS
INTERSECT INTERSECT
DISTINCT,MINUS,INTERSECT,UNION SORT UNIQUE
MIN,MAX,COUNT SORT AGGREGATE
GROUP BY SORT GROUP BY
ROWNUM COUNT or COUNT STOPKEY
Queries involving Joins SORT JOIN,MERGE JOIN,NESTED LOOPS
CONNECT BY CONNECT BY

    41.       用UNION-ALL 替换UNION ( 如果有可能的话)
    当SQL语句需要UNION两个查询结果集合时,这两个结果集合会以UNION-ALL的方式被合并, 然后在输出最终结果前进行排序。
    如果用UNION ALL替代UNION, 这样排序就不是必要了。 效率就会因此得到提高。
    举例:
 低效:
 SELECT ACCT_NUM, BALANCE_AMT 
 FROM DEBIT_TRANSACTIONS 
 WHERE TRAN_DATE = ‘31-DEC-95’
 UNION 
 SELECT ACCT_NUM, BALANCE_AMT 
 FROM DEBIT_TRANSACTIONS 
 WHERE TRAN_DATE = ‘31-DEC-95’
 高效:
 SELECT ACCT_NUM, BALANCE_AMT 
 FROM DEBIT_TRANSACTIONS 
 WHERE TRAN_DATE = ‘31-DEC-95’
 UNION ALL 
 SELECT ACCT_NUM, BALANCE_AMT 
 FROM DEBIT_TRANSACTIONS 
 WHERE TRAN_DATE = ‘31-DEC-95’
    译者按:需要注意的是,UNION ALL 将重复输出两个结果集合中相同记录。 因此各位还是要从业务需求分析使用UNION ALL的可行性。
    UNION 将对结果集合排序,这个操作会使用到SORT_AREA_SIZE这块内存。 对于这块内存的优化也是相当重要的。 下面的SQL可以用来查询排序的消耗量
    Select substr(name,1,25) "Sort Area Name",
 substr(value,1,15)   "Value" 
 from v$sysstat 
 where name like 'sort%'

Oracle语句优化53个规则详解(10)
42.       使用提示(Hints)    对于表的访问,可以使用两种Hints. 
 FULL 和 ROWID
    FULL hint 告诉ORACLE使用全表扫描的方式访问指定表。
    例如:
 SELECT /*+ FULL(EMP) */ * 
 FROM EMP 
 WHERE EMPNO = 7893;
    ROWID hint 告诉ORACLE使用TABLE ACCESS BY ROWID的操作访问表。
    通常, 你需要采用TABLE ACCESS BY ROWID的方式特别是当访问大表的时候, 使用这种方式, 你需要知道ROIWD的值或者使用索引。
    如果一个大表没有被设定为缓存(CACHED)表而你希望它的数据在查询结束是仍然停留在SGA中,你就可以使用CACHE hint 来告诉优化器把数据保留在SGA中。 通常CACHE hint 和 FULL hint 一起使用。
    例如:
 SELECT /*+ FULL(WORKER) CACHE(WORKER)*/ * 
 FROM WORK;
    索引hint 告诉ORACLE使用基于索引的扫描方式。 你不必说明具体的索引名称
 例如:
 SELECT /*+ INDEX(LODGING) */ LODGING 
 FROM LODGING 
 WHERE MANAGER = ‘BILL GATES’;
    在不使用hint的情况下, 以上的查询应该也会使用索引,然而,如果该索引的重复值过多而你的优化器是CBO, 优化器就可能忽略索引。 在这种情况下, 你可以用INDEX hint强制ORACLE使用该索引。
    ORACLE hints 还包括ALL_ROWS, FIRST_ROWS, RULE,USE_NL, USE_MERGE, USE_HASH 等等。
    译者按:使用hint , 表示我们对ORACLE优化器缺省的执行路径不满意,需要手工修改。这是一个很有技巧性的工作。 我建议只针对特定的,少数的SQL进行hint的优化。对ORACLE的优化器还是要有信心(特别是CBO)
    43.       用WHERE替代ORDER BY 
 ORDER BY 子句只在两种严格的条件下使用索引。
    ORDER BY中所有的列必须包含在相同的索引中并保持在索引中的排列顺序。
    ORDER BY中所有的列必须定义为非空。
    WHERE子句使用的索引和ORDER BY子句中所使用的索引不能并列。
    例如:
 表DEPT包含以下列:
    DEPT_CODE    PK    NOT NULL 
 DEPT_DESC           NOT NULL 
 DEPT_TYPE           NULL
    非唯一性的索引(DEPT_TYPE)
    低效: (索引不被使用)
    SELECT DEPT_CODE 
 FROM DEPT 
 ORDER BY DEPT_TYPE
    EXPLAIN PLAN:
  SORT ORDER BY 
    TABLE ACCESS FULL
 高效: (使用索引)
    SELECT DEPT_CODE 
 FROM DEPT 
 WHERE DEPT_TYPE > 0 
 EXPLAIN PLAN:
  TABLE ACCESS BY ROWID ON EMP 
   INDEX RANGE SCAN ON DEPT_IDX
 译者按:ORDER BY 也能使用索引! 这的确是个容易被忽视的知识点。 我们来验证一下:
SQL> select * from emp order by empno;
Execution Plan
----------------------------------------------------------
    0      SELECT STATEMENT Optimizer=CHOOSE 
 1    0   TABLE ACCESS (BY INDEX ROWID) OF 'EMP' 
 2    1     INDEX (FULL SCAN) OF 'EMPNO' (UNIQUE)
    44.       避免改变索引列的类型。
    当比较不同数据类型的数据时, ORACLE自动对列进行简单的类型转换。
    假设 EMPNO是一个数值类型的索引列。
    SELECT …
    FROM EMP 
 WHERE EMPNO = ‘123’
 实际上,经过ORACLE类型转换, 语句转化为:
 SELECT …
    FROM EMP 
 WHERE EMPNO = TO_NUMBER(‘123’)
    幸运的是,类型转换没有发生在索引列上,索引的用途没有被改变。
    现在,假设EMP_TYPE是一个字符类型的索引列。
    SELECT …
    FROM EMP 
WHERE EMP_TYPE = 123
 这个语句被ORACLE转换为:
 SELECT …
    FROM EMP 
 WHERE TO_NUMBER(EMP_TYPE)=123
 因为内部发生的类型转换, 这个索引将不会被用到!
    译者按:为了避免ORACLE对你的SQL进行隐式的类型转换, 最好把类型转换用显式表现出来。 注意当字符和数值比较时, ORACLE会优先转换数值类型到字符类型。


Oracle语句优化53个规则详解(11)
45.       需要当心的WHERE子句 某些SELECT 语句中的WHERE子句不使用索引。 这里有一些例子。
    在下面的例子里, ‘!=’ 将不使用索引。 记住, 索引只能告诉你什么存在于表中, 而不能告诉你什么不存在于表中。
    不使用索引:
 SELECT ACCOUNT_NAME 
 FROM TRANSACTION 
 WHERE AMOUNT !=0;
 使用索引:
 SELECT ACCOUNT_NAME 
 FROM TRANSACTION 
 WHERE AMOUNT >0;
 下面的例子中, ‘||’是字符连接函数。 就象其他函数那样, 停用了索引。
    不使用索引:
 SELECT ACCOUNT_NAME,AMOUNT 
 FROM TRANSACTION 
 WHERE ACCOUNT_NAME||ACCOUNT_TYPE=‘AMEXA’;
 使用索引:
 SELECT ACCOUNT_NAME,AMOUNT 
 FROM TRANSACTION 
 WHERE ACCOUNT_NAME = ‘AMEX’AND ACCOUNT_TYPE=‘ A’;
 下面的例子中, ‘+’是数学函数。 就象其他数学函数那样, 停用了索引。
    不使用索引:
 SELECT ACCOUNT_NAME, AMOUNT 
 FROM TRANSACTION 
 WHERE AMOUNT + 3000 >5000;
 使用索引:
 SELECT ACCOUNT_NAME, AMOUNT 
 FROM TRANSACTION 
 WHERE AMOUNT > 2000 ;
 下面的例子中,相同的索引列不能互相比较,这将会启用全表扫描。
    不使用索引:
 SELECT ACCOUNT_NAME, AMOUNT 
 FROM TRANSACTION 
 WHERE ACCOUNT_NAME = NVL(:ACC_NAME,ACCOUNT_NAME);
 使用索引:
 SELECT ACCOUNT_NAME, AMOUNT 
 FROM TRANSACTION 
 WHERE ACCOUNT_NAME LIKE NVL(:ACC_NAME,‘%’);
 译者按:如果一定要对使用函数的列启用索引, ORACLE新的功能: 基于函数的索引(Function-Based Index) 也许是一个较好的方案。
    CREATE INDEX EMP_I ON EMP (UPPER(ename)); /*建立基于函数的索引*/ 
 SELECT * FROM emp WHERE UPPER(ename) = ‘BLACKSNAIL’; /*将使用索引*/ 
 46.       连接多个扫描
 如果你对一个列和一组有限的值进行比较, 优化器可能执行多次扫描并对结果进行合并连接。
    举例:
 SELECT * 
 FROM LODGING 
 WHERE MANAGER IN (‘BILL GATES’,‘KEN MULLER’);
 优化器可能将它转换成以下形式
 SELECT * 
 FROM LODGING 
 WHERE MANAGER = ‘BILL GATES’OR MANAGER = ‘KEN MULLER’;
 当选择执行路径时, 优化器可能对每个条件采用LODGING$MANAGER上的索引范围扫描。 返回的ROWID用来访问LODGING表的记录 (通过TABLE ACCESS BY ROWID 的方式)。 最后两组记录以连接(CONCATENATION)的形式被组合成一个单一的集合。
    Explain Plan :
 SELECT STATEMENT Optimizer=CHOOSE 
 CONCATENATION 
  TABLE ACCESS (BY INDEX ROWID) OF LODGING 
   INDEX (RANGE SCAN ) OF LODGING$MANAGER (NON-UNIQUE)
     TABLE ACCESS (BY INDEX ROWID) OF LODGING 
   INDEX (RANGE SCAN ) OF LODGING$MANAGER (NON-UNIQUE)
    译者按:本节和第37节似乎有矛盾之处。
    47.       CBO下使用更具选择性的索引
 基于成本的优化器(CBO, Cost-Based Optimizer)对索引的选择性进行判断来决定索引的使用是否能提高效率。
    如果索引有很高的选择性, 那就是说对于每个不重复的索引键值,只对应数量很少的记录。
    比如, 表中共有100条记录而其中有80个不重复的索引键值。 这个索引的选择性就是80/100 = 0.8 . 选择性越高, 通过索引键值检索出的记录就越少。
    如果索引的选择性很低, 检索数据就需要大量的索引范围查询操作和ROWID 访问表的操作。 也许会比全表扫描的效率更低。
    译者按:
 下列经验请参阅:
 a.       如果检索数据量超过30%的表中记录数。使用索引将没有显著的效率提高。
    b.       在特定情况下, 使用索引也许会比全表扫描慢, 但这是同一个数量级上的区别。 而通常情况下,使用索引比全表扫描要快几倍乃至几千倍!
    48.       避免使用耗费资源的操作
 带有DISTINCT,UNION,MINUS,INTERSECT,ORDER BY的SQL语句会启动SQL引擎执行耗费资源的排序(SORT)功能。 DISTINCT需要一次排序操作, 而其他的至少需要执行两次排序。
    例如,一个UNION查询,其中每个查询都带有GROUP BY子句, GROUP BY会触发嵌入排序(NESTED SORT) ; 这样, 每个查询需要执行一次排序, 然后在执行UNION时, 又一个唯一排序(SORT UNIQUE)操作被执行而且它只能在前面的嵌入排序结束后才能开始执行。 嵌入的排序的深度会大大影响查询的效率。
    通常, 带有UNION, MINUS , INTERSECT的SQL语句都可以用其他方式重写。
    译者按:如果你的数据库的SORT_AREA_SIZE调配得好, 使用UNION , MINUS, INTERSECT也是可以考虑的, 毕竟它们的可读性很强
49.       优化GROUP BY 提高GROUP BY 语句的效率, 可以通过将不需要的记录在GROUP BY 之前过滤掉。下面两个查询返回相同结果但第二个明显就快了许多。
    低效:
 SELECT JOB , AVG(SAL)
    FROM EMP 
 GROUP by JOB 
 HAVING JOB = ‘PRESIDENT’
 OR JOB = ‘MANAGER’
 高效:
 SELECT JOB , AVG(SAL)
    FROM EMP 
 WHERE JOB = ‘PRESIDENT’
 OR JOB = ‘MANAGER’GROUP by JOB
 译者按:本节和14节相同。 可略过。
    50.       使用日期当
 使用日期是,需要注意如果有超过5位小数加到日期上, 这个日期会进到下一天!
    例如:
 1. 
 SELECT TO_DATE(‘01-JAN-93’+.99999)
    FROM DUAL;
 Returns:“01-JAN-93 23:59:59‘
 2. 
 SELECT TO_DATE(’01-JAN-93‘+.999999)
    FROM DUAL;
    Returns:“02-JAN-93 00:00:00‘
 译者按:虽然本节和SQL性能优化没有关系, 但是作者的功力可见一斑
 51.   使用显式的游标(CURSORs)
    使用隐式的游标,将会执行两次操作。 第一次检索记录, 第二次检查TOO MANY ROWS 这个exception . 而显式游标不执行第二次操作。
    52.   优化EXPORT和IMPORT
 使用较大的BUFFER(比如10MB , 10,240,000)可以提高EXPORT和IMPORT的速度。
    ORACLE将尽可能地获取你所指定的内存大小,即使在内存不满足,也不会报错。这个值至少要和表中最大的列相当,否则列值会被截断。
    译者按:可以肯定的是, 增加BUFFER会大大提高EXPORT , IMPORT的效率。 (曾经碰到过一个CASE, 增加BUFFER后,IMPORT/EXPORT快了10倍!)
    作者可能犯了一个错误: “这个值至少要和表中最大的列相当,否则列值会被截断。 ”其中最大的列也许是指最大的记录大小。
    关于EXPORT/IMPORT的优化,CSDN论坛中有一些总结性的贴子,比如关于BUFFER参数, COMMIT参数等等, 详情请查。
    53.   分离表和索引
 总是将你的表和索引建立在不同的表空间内(TABLESPACES)。 决不要将不属于ORACLE内部系统的对象存放到SYSTEM表空间里。 同时,确保数据表空间和索引表空间置于不同的硬盘上。
    译者按:“同时,确保数据表空间和索引表空间置与不同的硬盘上。”可能改为如下更为准确 “同时,确保数据表空间和索引表空间置与不同的硬盘控制卡控制的硬盘上。”

 

一、因情制宜,建立“适当”的索引

建立“适当”的索引是实现查询优化的首要前提。

索引(index)是除表之外另一重要的、用户定义的存储在物理介质上的数据结构。当根据索引码的值搜索数据时,索引提供了对数据的快速访问。事实上,没有索引,数据库也能根据SELECT语句成功地检索到结果,但随着表变得越来越大,使用“适当”的索引的效果就越来越明显。注意,在这句话中,我们用了“适当”这个词,这是因为,如果使用索引时不认真考虑其实现过程,索引既可以提高也会破坏数据库的工作性能。

(一)深入浅出理解索引结构

实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索引的区别:

其实,我们的汉语字典的正文本身就是一个聚集索引。比如,我们要查“安”字,就会很自然地翻开字典的前几页,因为“安”的拼音是“an”,而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的,那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的部分仍然找不到这个字,那么就说明您的字典中没有这个字;同样的,如果查“张”字,那您也会将您的字典翻到最后部分,因为“张”的拼音是“zhang”。也就是说,字典的正文部分本身就是一个目录,您不需要再去查其他目录来找到您需要找的内容。

我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。

如果您认识某个字,您可以快速地从自动中查到这个字。但您也可能会遇到您不认识的字,不知道它的发音,这时候,您就不能按照刚才的方法找到您要查的字,而需要去根据“偏旁部首”查到您要找的字,然后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并不是真正的正文的排序方法,比如您查“张”字,我们可以看到在查部首之后的检字表中“张”的页码是672页,检字表中“张”的上面是“驰”字,但页码却是63页,“张”的下面是 “弩”字,页面是390页。很显然,这些字并不是真正的分别位于“张”字的上下方,现在您看到的连续的“驰、张、弩”三字实际上就是他们在非聚集索引中的排序,是字典正文中的字在非聚集索引中的映射。我们可以通过这种方式来找到您所需要的字,但它需要两个过程,先找到目录中的结果,然后再翻到您所需要的页码。

我们把这种目录纯粹是目录,正文纯粹是正文的排序方式称为“非聚集索引”。

通过以上例子,我们可以理解到什么是“聚集索引”和“非聚集索引”。

进一步引申一下,我们可以很容易的理解:每个表只能有一个聚集索引,因为目录只能按照一种方法进行排序。

(二)何时使用聚集索引或非聚集索引

下面的表总结了何时使用聚集索引或非聚集索引(很重要)。

动作描述 
使用聚集索引 
使用非聚集索引

列经常被分组排序 
应 

返回某范围内的数据 
应 
不应

一个或极少不同值 
不应 
不应

小数目的不同值 
应 
不应

大数目的不同值 
不应 

频繁更新的列 
不应 

外键列 
应 

主键列 
应 

频繁修改索引列 
不应 


事实上,我们可以通过前面聚集索引和非聚集索引的定义的例子来理解上表。如:返回某范围内的数据一项。比如您的某个表有一个时间列,恰好您把聚合索引建立在了该列,这时您查询2004年1月1日至2004年10月1日之间的全部数据时,这个速度就将是很快的,因为您的这本字典正文是按日期进行排序的,聚类索引只需要找到要检索的所有数据中的开头和结尾数据即可;而不像非聚集索引,必须先查到目录中查到每一项数据对应的页码,然后再根据页码查到具体内容。

(三)结合实际,谈索引使用的误区

理论的目的是应用。虽然我们刚才列出了何时应使用聚集索引或非聚集索引,但在实践中以上规则却很容易被忽视或不能根据实际情况进行综合分析。下面我们将根据在实践中遇到的实际问题来谈一下索引使用的误区,以便于大家掌握索引建立的方法。

1、主键就是聚集索引

这种想法笔者认为是极端错误的,是对聚集索引的一种浪费。虽然SQL SERVER默认是在主键上建立聚集索引的。

通常,我们会在每个表中都建立一个ID列,以区分每条数据,并且这个ID列是自动增大的,步长一般为1。我们的这个办公自动化的实例中的列Gid就是如此。此时,如果我们将这个列设为主键,SQL SERVER会将此列默认为聚集索引。这样做有好处,就是可以让您的数据在数据库中按照ID进行物理排序,但笔者认为这样做意义不大。

显而易见,聚集索引的优势是很明显的,而每个表中只能有一个聚集索引的规则,这使得聚集索引变得更加珍贵。

从我们前面谈到的聚集索引的定义我们可以看出,使用聚集索引的最大好处就是能够根据查询要求,迅速缩小查询范围,避免全表扫描。在实际应用中,因为ID号是自动生成的,我们并不知道每条记录的ID号,所以我们很难在实践中用ID号来进行查询。这就使让ID号这个主键作为聚集索引成为一种资源浪费。其次,让每个ID号都不同的字段作为聚集索引也不符合“大数目的不同值情况下不应建立聚合索引”规则;当然,这种情况只是针对用户经常修改记录内容,特别是索引项的时候会负作用,但对于查询速度并没有影响。

在办公自动化系统中,无论是系统首页显示的需要用户签收的文件、会议还是用户进行文件查询等任何情况下进行数据查询都离不开字段的是“日期”还有用户本身的“用户名”。

通常,办公自动化的首页会显示每个用户尚未签收的文件或会议。虽然我们的where语句可以仅仅限制当前用户尚未签收的情况,但如果您的系统已建立了很长时间,并且数据量很大,那么,每次每个用户打开首页的时候都进行一次全表扫描,这样做意义是不大的,绝大多数的用户1个月前的文件都已经浏览过了,这样做只能徒增数据库的开销而已。事实上,我们完全可以让用户打开系统首页时,数据库仅仅查询这个用户近3个月来未阅览的文件,通过“日期”这个字段来限制表扫描,提高查询速度。如果您的办公自动化系统已经建立的2年,那么您的首页显示速度理论上将是原来速度8倍,甚至更快。

在这里之所以提到“ 理论上”三字,是因为如果您的聚集索引还是盲目地建在ID这个主键上时,您的查询速度是没有这么高的,即使您在“日期”这个字段上建立的索引(非聚合索引)。下面我们就来看一下在1000万条数据量的情况下各种查询的速度表现(3个月内的数据为25万条):

(1)仅在主键上建立聚集索引,并且不划分时间段:

Select gid,fariqi,neibuyonghu,title from tgongwen

用时:128470毫秒(即:128秒)

(2)在主键上建立聚集索引,在fariq上建立非聚集索引:

select gid,fariqi,neibuyonghu,title from Tgongwen

where fariqi> dateadd(day,-90,getdate())

用时:53763毫秒(54秒)

(3)将聚合索引建立在日期列(fariqi)上:

select gid,fariqi,neibuyonghu,title from Tgongwen

where fariqi> dateadd(day,-90,getdate())

用时:2423毫秒(2秒)

虽然每条语句提取出来的都是25万条数据,各种情况的差异却是巨大的,特别是将聚集索引建立在日期列时的差异。事实上,如果您的数据库真的有1000万容量的话,把主键建立在ID列上,就像以上的第1、2种情况,在网页上的表现就是超时,根本就无法显示。这也是我摒弃ID列作为聚集索引的一个最重要的因素。

得出以上速度的方法是:在各个select语句前加:declare @d datetime

set @d=getdate()

并在select语句后加:

select [语句执行花费时间(毫秒)]=datediff(ms,@d,getdate())

2、只要建立索引就能显著提高查询速度

事实上,我们可以发现上面的例子中,第2、3条语句完全相同,且建立索引的字段也相同;不同的仅是前者在fariqi字段上建立的是非聚合索引,后者在此字段上建立的是聚合索引,但查询速度却有着天壤之别。所以,并非是在任何字段上简单地建立索引就能提高查询速度。

从建表的语句中,我们可以看到这个有着1000万数据的表中fariqi字段有5003个不同记录。在此字段上建立聚合索引是再合适不过了。在现实中,我们每天都会发几个文件,这几个文件的发文日期就相同,这完全符合建立聚集索引要求的:“既不能绝大多数都相同,又不能只有极少数相同”的规则。由此看来,我们建立“适当”的聚合索引对于我们提高查询速度是非常重要的。

3、把所有需要提高查询速度的字段都加进聚集索引,以提高查询速度

上面已经谈到:在进行数据查询时都离不开字段的是“日期”还有用户本身的“用户名”。既然这两个字段都是如此的重要,我们可以把他们合并起来,建立一个复合索引(compound index)。

很多人认为只要把任何字段加进聚集索引,就能提高查询速度,也有人感到迷惑:如果把复合的聚集索引字段分开查询,那么查询速度会减慢吗?带着这个问题,我们来看一下以下的查询速度(结果集都是25万条数据):(日期列fariqi首先排在复合聚集索引的起始列,用户名neibuyonghu排在后列)

(1)select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-5-5'

查询速度:2513毫秒

(2)select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-5-5' and neibuyonghu='办公室'

查询速度:2516毫秒

(3)select gid,fariqi,neibuyonghu,title from Tgongwen where neibuyonghu='办公室'

查询速度:60280毫秒

从以上试验中,我们可以看到如果仅用聚集索引的起始列作为查询条件和同时用到复合聚集索引的全部列的查询速度是几乎一样的,甚至比用上全部的复合索引列还要略快(在查询结果集数目一样的情况下);而如果仅用复合聚集索引的非起始列作为查询条件的话,这个索引是不起任何作用的。当然,语句1、2的查询速度一样是因为查询的条目数一样,如果复合索引的所有列都用上,而且查询结果少的话,这样就会形成“索引覆盖”,因而性能可以达到最优。同时,请记住:无论您是否经常使用聚合索引的其他列,但其前导列一定要是使用最频繁的列。

(四)其他书上没有的索引使用经验总结

1、用聚合索引比用不是聚合索引的主键速度快

下面是实例语句:(都是提取25万条数据)

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'

使用时间:3326毫秒

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid<=250000

使用时间:4470毫秒

这里,用聚合索引比用不是聚合索引的主键速度快了近1/4。

2、用聚合索引比用一般的主键作order by时速度快,特别是在小数据量情况下

select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by fariqi

用时:12936

select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by gid

用时:18843

这里,用聚合索引比用一般的主键作order by时,速度快了3/10。事实上,如果数据量很小的话,用聚集索引作为排序列要比使用非聚集索引速度快得明显的多;而数据量如果很大的话,如10万以上,则二者的速度差别不明显。

3、使用聚合索引内的时间段,搜索时间会按数据占整个数据表的百分比成比例减少,而无论聚合索引使用了多少个

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1'

用时:6343毫秒(提取100万条)

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-6-6'

用时:3170毫秒(提取50万条)

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'

用时:3326毫秒(和上句的结果一模一样。如果采集的数量一样,那么用大于号和等于号是一样的)

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1' and fariqi<'2004-6-6'

用时:3280毫秒

4 、日期列不会因为有分秒的输入而减慢查询速度

下面的例子中,共有100万条数据,2004年1月1日以后的数据有50万条,但只有两个不同的日期,日期精确到日;之前有数据50万条,有5000个不同的日期,日期精确到秒。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1' order by fariqi

用时:6390毫秒

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi<'2004-1-1' order by fariqi

用时:6453毫秒

(五)其他注意事项

“水可载舟,亦可覆舟”,索引也一样。索引有助于提高检索性能,但过多或不当的索引也会导致系统低效。因为用户在表中每加进一个索引,数据库就要做更多的工作。过多的索引甚至会导致索引碎片。

所以说,我们要建立一个“适当”的索引体系,特别是对聚合索引的创建,更应精益求精,以使您的数据库能得到高性能的发挥。

当然,在实践中,作为一个尽职的数据库管理员,您还要多测试一些方案,找出哪种方案效率最高、最为有效。

 

二、改善SQL语句

很多人不知道SQL语句在SQL SERVER中是如何执行的,他们担心自己所写的SQL语句会被SQL SERVER误解。比如:

select * from table1 where name='zhangsan' and tID > 10000

和执行:

select * from table1 where tID > 10000 and name='zhangsan'

一些人不知道以上两条语句的执行效率是否一样,因为如果简单的从语句先后上看,这两个语句的确是不一样,如果tID是一个聚合索引,那么后一句仅仅从表的 10000条以后的记录中查找就行了;而前一句则要先从全表中查找看有几个name='zhangsan'的,而后再根据限制条件条件tID> 10000来提出查询结果。

事实上,这样的担心是不必要的。SQL SERVER中有一个“查询分析优化器”,它可以计算出where子句中的搜索条件并确定哪个索引能缩小表扫描的搜索空间,也就是说,它能实现自动优化。

虽然查询优化器可以根据where子句自动的进行查询优化,但大家仍然有必要了解一下“查询优化器”的工作原理,如非这样,有时查询优化器就会不按照您的本意进行快速查询。

在查询分析阶段,查询优化器查看查询的每个阶段并决定限制需要扫描的数据量是否有用。如果一个阶段可以被用作一个扫描参数(SARG),那么就称之为可优化的,并且可以利用索引快速获得所需数据。

SARG的定义:用于限制搜索的一个操作,因为它通常是指一个特定的匹配,一个值得范围内的匹配或者两个以上条件的AND连接。形式如下:

列名 操作符 <常数 或 变量>

<常数 或 变量> 操作符列名

列名可以出现在操作符的一边,而常数或变量出现在操作符的另一边。如:

Name=’张三’

价格>5000

5000<价格

Name=’张三’ and 价格>5000

如果一个表达式不能满足SARG的形式,那它就无法限制搜索的范围了,也就是SQL SERVER必须对每一行都判断它是否满足WHERE子句中的所有条件。所以一个索引对于不满足SARG形式的表达式来说是无用的。

介绍完SARG后,我们来总结一下使用SARG以及在实践中遇到的和某些资料上结论不同的经验:

1、Like语句是否属于SARG取决于所使用的通配符的类型

如:name like ‘张%’ ,这就属于SARG

而:name like ‘%张’ ,就不属于SARG。

原因是通配符%在字符串的开通使得索引无法使用。

2、or 会引起全表扫描

Name=’张三’ and 价格>5000 符号SARG,而:Name=’张三’ or 价格>5000 则不符合SARG。使用or会引起全表扫描。

3、非操作符、函数引起的不满足SARG形式的语句

不满足SARG形式的语句最典型的情况就是包括非操作符的语句,如:NOT、!=、<>、!<、!>、NOT EXISTS、NOT IN、NOT LIKE等,另外还有函数。下面就是几个不满足SARG形式的例子:

ABS(价格)<5000

Name like ‘%三’

有些表达式,如:

WHERE 价格*2>5000

SQL SERVER也会认为是SARG,SQL SERVER会将此式转化为:

WHERE 价格>2500/2

但我们不推荐这样使用,因为有时SQL SERVER不能保证这种转化与原始表达式是完全等价的。

4、IN 的作用相当与OR

语句:

Select * from table1 where tid in (2,3)

Select * from table1 where tid=2 or tid=3

是一样的,都会引起全表扫描,如果tid上有索引,其索引也会失效。

5、尽量少用NOT

6、exists 和 in 的执行效率是一样的

很多资料上都显示说,exists要比in的执行效率要高,同时应尽可能的用not exists来代替not in。但事实上,我试验了一下,发现二者无论是前面带不带not,二者之间的执行效率都是一样的。因为涉及子查询,我们试验这次用SQL SERVER自带的pubs数据库。运行前我们可以把SQL SERVER的statistics I/O状态打开。

(1)select title,price from titles where title_id in (select title_id from sales where qty>30)

该句的执行结果为:

表 'sales'。扫描计数 18,逻辑读 56 次,物理读 0 次,预读 0 次。

表 'titles'。扫描计数 1,逻辑读 2 次,物理读 0 次,预读 0 次。

  

(2)select title,price from titles where exists (select * from sales where sales.title_id=titles.title_id and qty>30)

第二句的执行结果为:

表 'sales'。扫描计数 18,逻辑读 56 次,物理读 0 次,预读 0 次。

表 'titles'。扫描计数 1,逻辑读 2 次,物理读 0 次,预读 0 次。

我们从此可以看到用exists和用in的执行效率是一样的。

7、用函数charindex()和前面加通配符%的LIKE执行效率一样

前面,我们谈到,如果在LIKE前面加上通配符%,那么将会引起全表扫描,所以其执行效率是低下的。但有的资料介绍说,用函数charindex()来代替LIKE速度会有大的提升,经我试验,发现这种说明也是错误的:

select gid,title,fariqi,reader from tgongwen where charindex('刑侦支队',reader)>0 and fariqi>'2004-5-5'

用时:7秒,另外:扫描计数 4,逻辑读 7155 次,物理读 0 次,预读 0 次。

select gid,title,fariqi,reader from tgongwen where reader like '%' + '刑侦支队' + '%' and fariqi>'2004-5-5'

用时:7秒,另外:扫描计数 4,逻辑读 7155 次,物理读 0 次,预读 0 次。

8、union并不绝对比or的执行效率高

我们前面已经谈到了在where子句中使用or会引起全表扫描,一般的,我所见过的资料都是推荐这里用union来代替or。事实证明,这种说法对于大部分都是适用的。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or gid>9990000

用时:68秒。扫描计数 1,逻辑读 404008 次,物理读 283 次,预读 392163 次。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000

用时:9秒。扫描计数 8,逻辑读 67489 次,物理读 216 次,预读 7499 次。

看来,用union在通常情况下比用or的效率要高的多。

但经过试验,笔者发现如果or两边的查询列是一样的话,那么用union则反倒和用or的执行速度差很多,虽然这里union扫描的是索引,而or扫描的是全表。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or fariqi='2004-2-5'

用时:6423毫秒。扫描计数 2,逻辑读 14726 次,物理读 1 次,预读 7176 次。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where  fariqi='2004-2-5'

用时:11640毫秒。扫描计数 8,逻辑读 14806 次,物理读 108 次,预读 1144 次。

9、字段提取要按照“需多少、提多少”的原则,避免“select *”

我们来做一个试验:

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

用时:4673毫秒

select top 10000 gid,fariqi,title from tgongwen order by gid desc

用时:1376毫秒

select top 10000 gid,fariqi from tgongwen order by gid desc

用时:80毫秒

由此看来,我们每少提取一个字段,数据的提取速度就会有相应的提升。提升的速度还要看您舍弃的字段的大小来判断。

10、count(*)不比count(字段)慢

某些资料上说:用*会统计所有列,显然要比一个世界的列名效率低。这种说法其实是没有根据的。我们来看:

select count(*) from Tgongwen

用时:1500毫秒

select count(gid) from Tgongwen

用时:1483毫秒

select count(fariqi) from Tgongwen

用时:3140毫秒

select count(title) from Tgongwen

用时:52050毫秒

从以上可以看出,如果用count(*)和用count(主键)的速度是相当的,而count(*)却比其他任何除主键以外的字段汇总速度要快,而且字段越长,汇总的速度就越慢。我想,如果用count(*), SQL SERVER可能会自动查找最小字段来汇总的。当然,如果您直接写count(主键)将会来的更直接些。

11、order by按聚集索引列排序效率最高

我们来看:(gid是主键,fariqi是聚合索引列)

select top 10000 gid,fariqi,reader,title from tgongwen

用时:196 毫秒。 扫描计数 1,逻辑读 289 次,物理读 1 次,预读 1527 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc

用时:4720毫秒。 扫描计数 1,逻辑读 41956 次,物理读 0 次,预读 1287 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

用时:4736毫秒。 扫描计数 1,逻辑读 55350 次,物理读 10 次,预读 775 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc

用时:173毫秒。 扫描计数 1,逻辑读 290 次,物理读 0 次,预读 0 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc

用时:156毫秒。 扫描计数 1,逻辑读 289 次,物理读 0 次,预读 0 次。

从以上我们可以看出,不排序的速度以及逻辑读次数都是和“order by 聚集索引列” 的速度是相当的,但这些都比“order by 非聚集索引列”的查询速度是快得多的。

同时,按照某个字段进行排序的时候,无论是正序还是倒序,速度是基本相当的。

12、高效的TOP

事实上,在查询和提取超大容量的数据集时,影响数据库响应时间的最大因素不是数据查找,而是物理的I/0操作。如:

select top 10 * from (

select top 10000 gid,fariqi,title from tgongwen

where neibuyonghu='办公室'

order by gid desc) as a

order by gid asc

这条语句,从理论上讲,整条语句的执行时间应该比子句的执行时间长,但事实相反。因为,子句执行后返回的是10000条记录,而整条语句仅返回10条语句,所以影响数据库响应时间最大的因素是物理I/O操作。而限制物理I/O操作此处的最有效方法之一就是使用TOP关键词了。TOP关键词是SQL SERVER中经过系统优化过的一个用来提取前几条或前几个百分比数据的词。经笔者在实践中的应用,发现TOP确实很好用,效率也很高。但这个词在另外一个大型数据库ORACLE中却没有,这不能说不是一个遗憾,虽然在ORACLE中可以用其他方法(如:rownumber)来解决。在以后的关于“实现千万级数据的分页显示存储过程”的讨论中,我们就将用到TOP这个关键词。

 

到此为止,我们上面讨论了如何实现从大容量的数据库中快速地查询出您所需要的数据方法。当然,我们介绍的这些方法都是“软”方法,在实践中,我们还要考虑各种“硬”因素,如:网络性能、服务器的性能、操作系统的性能,甚至网卡、交换机等。

 

三、实现小数据量和海量数据的通用分页显示存储过程

建立一个web 应用,分页浏览功能必不可少。这个问题是数据库处理中十分常见的问题。经典的数据分页方法是:ADO 纪录集分页法,也就是利用ADO自带的分页功能(利用游标)来实现分页。但这种分页方法仅适用于较小数据量的情形,因为游标本身有缺点:游标是存放在内存中,很费内存。游标一建立,就将相关的记录锁住,直到取消游标。游标提供了对特定集合中逐行扫描的手段,一般使用游标来逐行遍历数据,根据取出数据条件的不同进行不同的操作。而对于多表和大表中定义的游标(大的数据集合)循环很容易使程序进入一个漫长的等待甚至死机。

更重要的是,对于非常大的数据模型而言,分页检索时,如果按照传统的每次都加载整个数据源的方法是非常浪费资源的。现在流行的分页方法一般是检索页面大小的块区的数据,而非检索所有的数据,然后单步执行当前行。

    最早较好地实现这种根据页面大小和页码来提取数据的方法大概就是“俄罗斯存储过程”。这个存储过程用了游标,由于游标的局限性,所以这个方法并没有得到大家的普遍认可。

后来,网上有人改造了此存储过程,下面的存储过程就是结合我们的办公自动化实例写的分页存储过程:

CREATE procedure pagination1

(@pagesize int,  --页面大小,如每页存储20条记录

@pageindex int   --当前页码

)

as

set nocount on

begin

declare @indextable table(id int identity(1,1),nid int)  --定义表变量

declare @PageLowerBound int  --定义此页的底码

declare @PageUpperBound int  --定义此页的顶码

set @PageLowerBound=(@pageindex-1)*@pagesize

set @PageUpperBound=@PageLowerBound+@pagesize

set rowcount @PageUpperBound

insert into @indextable(nid) select gid from TGongwen where fariqi >dateadd(day,-365,getdate()) order by fariqi desc

select O.gid,O.mid,O.title,O.fadanwei,O.fariqi from TGongwen O,@indextable t where O.gid=t.nid

and t.id>@PageLowerBound and t.id<=@PageUpperBound order by t.id

end

set nocount off

以上存储过程运用了SQL SERVER的最新技术――表变量。应该说这个存储过程也是一个非常优秀的分页存储过程。当然,在这个过程中,您也可以把其中的表变量写成临时表:CREATE TABLE #Temp。但很明显,在SQL SERVER中,用临时表是没有用表变量快的。所以笔者刚开始使用这个存储过程时,感觉非常的不错,速度也比原来的ADO的好。但后来,我又发现了比此方法更好的方法。

笔者曾在网上看到了一篇小短文《从数据表中取出第n条到第m条的记录的方法》,全文如下:

从publish 表中取出第 n 条到第 m 条的记录: 
SELECT TOP m-n+1 * 
FROM publish 
WHERE (id NOT IN 
    (SELECT TOP n-1 id 
     FROM publish))

id 为publish 表的关键字

我当时看到这篇文章的时候,真的是精神为之一振,觉得思路非常得好。等到后来,我在作办公自动化系统(ASP.NET+ C#+SQL SERVER)的时候,忽然想起了这篇文章,我想如果把这个语句改造一下,这就可能是一个非常好的分页存储过程。于是我就满网上找这篇文章,没想到,文章还没找到,却找到了一篇根据此语句写的一个分页存储过程,这个存储过程也是目前较为流行的一种分页存储过程,我很后悔没有争先把这段文字改造成存储过程:

CREATE PROCEDURE pagination2 

@SQL nVARCHAR(4000),    --不带排序语句的SQL语句 
@Page int,              --页码 
@RecsPerPage int,       --每页容纳的记录数 
@ID VARCHAR(255),       --需要排序的不重复的ID号 
@Sort VARCHAR(255)      --排序字段及规则 

AS

DECLARE @Str nVARCHAR(4000)

SET @Str='SELECT   TOP '+CAST(@RecsPerPage AS VARCHAR(20))+' * FROM ('+@SQL+') T WHERET.'+@ID+'NOT IN 
(SELECT   TOP '+CAST((@RecsPerPage*(@Page-1)) AS VARCHAR(20))+' '+@ID+' FROM ('+@SQL+') T9 ORDER BY '+@Sort+') ORDER BY '+@Sort

PRINT @Str

EXEC sp_ExecuteSql @Str 
GO

其实,以上语句可以简化为:

SELECT TOP 页大小 *

FROM Table1

WHERE (ID NOT IN

          (SELECT TOP 页大小*页数 id

         FROM 表

         ORDER BY id))

ORDER BY ID

但这个存储过程有一个致命的缺点,就是它含有NOT IN字样。虽然我可以把它改造为:

SELECT TOP 页大小 *

FROM Table1

WHERE not exists

(select * from (select top (页大小*页数) * from table1 order by id) b where b.id=a.id )

order by id

即,用not exists来代替not in,但我们前面已经谈过了,二者的执行效率实际上是没有区别的。

既便如此,用TOP 结合NOT IN的这个方法还是比用游标要来得快一些。

虽然用not exists并不能挽救上个存储过程的效率,但使用SQL SERVER中的TOP关键字却是一个非常明智的选择。因为分页优化的最终目的就是避免产生过大的记录集,而我们在前面也已经提到了TOP的优势,通过TOP 即可实现对数据量的控制。

在分页算法中,影响我们查询速度的关键因素有两点:TOP和NOT IN。TOP可以提高我们的查询速度,而NOT IN会减慢我们的查询速度,所以要提高我们整个分页算法的速度,就要彻底改造NOT IN,同其他方法来替代它。

我们知道,几乎任何字段,我们都可以通过max(字段)或min(字段)来提取某个字段中的最大或最小值,所以如果这个字段不重复,那么就可以利用这些不重复的字段的max或min作为分水岭,使其成为分页算法中分开每页的参照物。在这里,我们可以用操作符“>”或“<”号来完成这个使命,使查询语句符合SARG形式。如:

Select top 10 * from table1 where id>200

于是就有了如下分页方案:

select top 页大小 *

from table1

where id>

      (select max (id) from

      (select top ((页码-1)*页大小) id from table1 order by id) as T

       )   

  order by id

在选择即不重复值,又容易分辨大小的列时,我们通常会选择主键。下表列出了笔者用有着1000万数据的办公自动化系统中的表,在以GID(GID是主键,但并不是聚集索引。)为排序列、提取gid,fariqi,title字段,分别以第1、10、100、500、1000、1万、10万、25万、50万页为例,测试以上三种分页方案的执行速度:(单位:毫秒)

页  码 
方案1 
方案2 
方案3


60 
30 
76

10 
46 
16 
63

100 
1076 
720 
130

500 
540 
12943 
83

1000 
17110 
470 
250

1万 
24796 
4500 
140

10万 
38326 
42283 
1553

25万 
28140 
128720 
2330

50万 
121686 
127846 
7168


从上表中,我们可以看出,三种存储过程在执行100页以下的分页命令时,都是可以信任的,速度都很好。但第一种方案在执行分页1000页以上后,速度就降了下来。第二种方案大约是在执行分页1万页以上后速度开始降了下来。而第三种方案却始终没有大的降势,后劲仍然很足。

在确定了第三种分页方案后,我们可以据此写一个存储过程。大家知道SQL SERVER的存储过程是事先编译好的SQL语句,它的执行效率要比通过WEB页面传来的SQL语句的执行效率要高。下面的存储过程不仅含有分页方案,还会根据页面传来的参数来确定是否进行数据总数统计。

-- 获取指定页的数据

CREATE PROCEDURE pagination3

@tblName   varchar(255),       -- 表名

@strGetFields varchar(1000) = '*',  -- 需要返回的列

@fldName varchar(255)='',      -- 排序的字段名

@PageSize   int = 10,          -- 页尺寸

@PageIndex  int = 1,           -- 页码

@doCount  bit = 0,   -- 返回记录总数, 非 0 值则返回

@OrderType bit = 0,  -- 设置排序类型, 非 0 值则降序

@strWhere  varchar(1500) = ''  -- 查询条件 (注意: 不要加 where)

AS

declare @strSQL   varchar(5000)       -- 主语句

declare @strTmp   varchar(110)        -- 临时变量

declare @strOrder varchar(400)        -- 排序类型

 

if @doCount != 0

  begin

    if @strWhere !=''

    set @strSQL = "select count(*) as Total from [" + @tblName + "] where "+@strWhere

    else

    set @strSQL = "select count(*) as Total from [" + @tblName + "]"

end 

--以上代码的意思是如果@doCount传递过来的不是0,就执行总数统计。以下的所有代码都是@doCount为0的情况

else

begin

 

if @OrderType != 0

begin

    set @strTmp = "<(select min"

set @strOrder = " order by [" + @fldName +"] desc"

--如果@OrderType不是0,就执行降序,这句很重要!

end

else

begin

    set @strTmp = ">(select max"

    set @strOrder = " order by [" + @fldName +"] asc"

end

 

if @PageIndex = 1

begin

    if @strWhere != '' 

    set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ "  from [" + @tblName + "] where " + @strWhere + " " + @strOrder

     else

     set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ "  from ["+ @tblName + "] "+ @strOrder

--如果是第一页就执行以上代码,这样会加快执行速度

end

else

begin

--以下代码赋予了@strSQL以真正执行的SQL代码

set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ "  from ["

    + @tblName + "] where [" + @fldName + "]" + @strTmp + "(["+ @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + " ["+ @fldName + "] from [" + @tblName + "]" + @strOrder + ") as tblTmp)"+ @strOrder

 

if @strWhere != ''

    set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ "  from ["

        + @tblName + "] where [" + @fldName + "]" + @strTmp + "(["

        + @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + " ["

        + @fldName + "] from [" + @tblName + "] where " + @strWhere + " "

        + @strOrder + ") as tblTmp) and " + @strWhere + " " + @strOrder

end

end 

exec (@strSQL)

GO

上面的这个存储过程是一个通用的存储过程,其注释已写在其中了。

大数据量的情况下,特别是在查询最后几页的时候,查询时间一般不会超过9秒;而用其他存储过程,在实践中就会导致超时,所以这个存储过程非常适用于大容量数据库的查询。

笔者希望能够通过对以上存储过程的解析,能给大家带来一定的启示,并给工作带来一定的效率提升,同时希望同行提出更优秀的实时数据分页算法。

 

四、聚集索引的重要性和如何选择聚集索引

在上一节的标题中,笔者写的是:实现小数据量和海量数据的通用分页显示存储过程。这是因为在将本存储过程应用于“办公自动化”系统的实践中时,笔者发现这第三种存储过程在小数据量的情况下,有如下现象:

1、分页速度一般维持在1秒和3秒之间。

2、在查询最后一页时,速度一般为5秒至8秒,哪怕分页总数只有3页或30万页。

虽然在超大容量情况下,这个分页的实现过程是很快的,但在分前几页时,这个1-3秒的速度比起第一种甚至没有经过优化的分页方法速度还要慢,借用户的话说就是“还没有ACCESS数据库速度快”,这个认识足以导致用户放弃使用您开发的系统。

笔者就此分析了一下,原来产生这种现象的症结是如此的简单,但又如此的重要:排序的字段不是聚集索引!

本篇文章的题目是:“查询优化及分页算法方案”。笔者只所以把“查询优化”和“分页算法”这两个联系不是很大的论题放在一起,就是因为二者都需要一个非常重要的东西――聚集索引。

在前面的讨论中我们已经提到了,聚集索引有两个最大的优势:

1、以最快的速度缩小查询范围。

2、以最快的速度进行字段排序。

第1条多用在查询优化时,而第2条多用在进行分页时的数据排序。

而聚集索引在每个表内又只能建立一个,这使得聚集索引显得更加的重要。聚集索引的挑选可以说是实现“查询优化”和“高效分页”的最关键因素。

但要既使聚集索引列既符合查询列的需要,又符合排序列的需要,这通常是一个矛盾。

笔者前面“索引”的讨论中,将fariqi,即用户发文日期作为了聚集索引的起始列,日期的精确度为“日”。这种作法的优点,前面已经提到了,在进行划时间段的快速查询中,比用ID主键列有很大的优势。

但在分页时,由于这个聚集索引列存在着重复记录,所以无法使用max或min来最为分页的参照物,进而无法实现更为高效的排序。而如果将ID主键列作为聚集索引,那么聚集索引除了用以排序之外,没有任何用处,实际上是浪费了聚集索引这个宝贵的资源。

为解决这个矛盾,笔者后来又添加了一个日期列,其默认值为getdate()。用户在写入记录时,这个列自动写入当时的时间,时间精确到毫秒。即使这样,为了避免可能性很小的重合,还要在此列上创建UNIQUE约束。将此日期列作为聚集索引列。

有了这个时间型聚集索引列之后,用户就既可以用这个列查找用户在插入数据时的某个时间段的查询,又可以作为唯一列来实现max或min,成为分页算法的参照物。

经过这样的优化,笔者发现,无论是大数据量的情况下还是小数据量的情况下,分页速度一般都是几十毫秒,甚至0毫秒。而用日期段缩小范围的查询速度比原来也没有任何迟钝。

聚集索引是如此的重要和珍贵,所以笔者总结了一下,一定要将聚集索引建立在:

1、您最频繁使用的、用以缩小查询范围的字段上;

2、您最频繁使用的、需要排序的字段上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值