Oracle系列 执行计划(explain plan)

1、什么是执行计划      

          描述一条SQL语句执行的路径,即SQL运行路径。这个过程叫Oracle解析过程,然后把更好的执行计划放到SGA的Shared Pool里,后续执行同一条语句只需要调用执行计划执行即可。

          根据上一篇文章描述 Oracle 系列 统计信息详解(Statistic) CBO为生成执化的核心,本文主要讲解执行计划中关注点

2、查看执行计划方式

      2.1、pl/sql 工具

            2.1.1、设置要查看的信息

                

               基数(Rows):Oracle估计的当前操作的返回结果集行数

               字节(Bytes):执行该步骤后返回的字节数

               耗费(COST)、CPU耗费:Oracle估计的该步骤的执行成本,用于说明SQL执行的代价,理论上越小越好(该值可能与实际有出入)

               时间(Time):Oracle估计的当前操作所需的时间

          2.1.2、执行SQL

              PLSQL界面执行一条SQL 再按F5查看执行计划

         

      2.2 设置 autotrace

         SET AUTOTRACE {OFF|ON|TRACEONLY}  [EXPLAIN]  [STATISTICS]

          1、sql*plus 界面根据需求执行以下选择之一

SET AUTOTRACE OFF此为默认值,即关闭Autotrace
SET AUTOTRACE ON EXPLAIN只显示执行计划
SET AUTOTRACE ON STATISTICS只显示执行的统计信息
SET AUTOTRACE ON包含2,3两项内容
SET AUTOTRACE TRACEONLY与ON相似,但不显示语句的执行结果

          2、Set autotrace on 命令如下(建议使用set autotrace traceonly 只显示执行计划和统计信息,无sql查询结果)

          

      2.3 explain plan命令

    1、explain plan for select * from testdb.myuser

    2、select * from table(dbms_xplan.display);

      2.4 10046事件

                10046事件级别:

                      Lv1  - 启用标准的SQL_TRACE功能,等价于SQL_TRACE

                      Lv4  - Level 1 + 绑定值(bind values)

                      Lv8  - Level 1 + 等待事件跟踪

                      Lv12 - Level 1 + Level 4 + Level 8

               全局设定:

               OracleHome/admin/SID/pfile中指定: EVENT="10046 trace name context forever,level 12"

               当前session设定:

               开启:SQL> alter session set events '10046 trace name context forever, level 8';

               关闭:SQL> alter session set events '10046 trace name context off';

               对其他用户进行设置:

               SQL> select sid,serial#,username from v$session where username='XXX';

               SID    SERIAL# USERNAME

                      ------ ---------- ------------------

                      127      31923 A

                SQL> exec dbms_system.set_ev(127,31923,10046,8,'A');

注:以上4种方式为常用的4种方式,有篇文章有详细6种方法,感兴趣可以研究下 http://blog.itpub.net/26736162/viewspace-2136865/

3、执行计划顺序

        执行顺序的原则是:由上至下,从右向左

        一般按缩进长度来判断,缩进最大的最先执行,如果有2行缩进一样,那么就先执行上面的。

        如下图SQL执行计划所示,结构非常清晰,统计学生各科成绩

        

4 表访问的方式

     上图中TABLE ACCESS BY …  即描述的是该动作执行时表访问(或者说Oracle访问数据)的方式

   4.1 TABLE ACCESS FULL(全表扫描)

                Oracle会读取表中所有的行,并检查每一行是否满足SQL语句中的 Where 限制条件;

                全表扫描时可以使用多块读(即一次I/O读取多块数据块)操作,提升吞吐量;

                使用建议:数据量太大的表不建议使用全表扫描,除非本身需要取出的数据较多,占到表数据总量的 5% ~ 10% 或以上

            4.1.1 实现全表扫描

                Don’t create any index;no relation With primary key

                

                

   4.2  TABLE ACCESS BY ROWID(通过ROWID的表存取)

           4.2.1 ROWID 解释

                ROWID是由Oracle自动加在表中每行最后的一列伪列,既然是伪列,就说明表中并不会物理存储ROWID的值;

                你可以像使用其它列一样使用它,只是不能对该列的值进行增、删、改操作;

                一旦一行数据插入后,对应的ROWID在该行的生命周期内是唯一的,即使发生行迁移,该行的ROWID值也不变。

               行的ROWID指出了该行所在的数据文件、数据块以及行在该块中的位置,所以通过ROWID可以快速定位到目标数据上,这也是Oracle中存取单行数据最快的方法;

           4.2.2 实现 TABLE ACCESS BY ROWID

                Don’t create any index   ;Primary key column is id

                

   4.3  TABLE ACCESS BY INDEX SCAN(索引扫描)

           4.3.1 INDEX UNIQUE SCAN(索引唯一扫描)

                针对唯一性索引(UNIQUE INDEX)的扫描,每次至多只返回一条记录;

                表中某字段存在 UNIQUE、PRIMARY KEY 约束时,Oracle常实现唯一性扫描;

                简单记忆为WHERE 的筛选条件有主键,或者有唯一性限制的字段

                

           4.3.2 INDEX RANGE SCAN(索引范围扫描)

                使用一个索引存取多行数据;

                发生索引范围扫描的三种情况:

                1、在唯一索引列上使用了范围操作符(如:>   <   <>   >=   <=   between

                2、在组合索引上,只使用部分列进行查询(查询时必须包含前导列,否则会走全表扫描

                3、对非唯一索引列上进行的任何查询

                

           4.3.3 INDEX FULL SCAN(索引全扫描)

                进行全索引扫描时,查询出的数据都必须从索引中可以直接得到,且查询条件不包含索引前导列(注意全索引扫描只有在CBO模式下才有效)

                简易理解:创建一个复合索引,有两个字段,但是查询时候没有使用到age字段

                示例详见:索引快速扫描(index fast full scan)

           4.3.4 INDEX FAST FULL SCAN(索引快速扫描)

               扫描索引中的所有的数据块,与 INDEX FULL SCAN 类似,但是一个显著的区别是它不对查询出的数据进行排序(即数据不是以排序顺序被返回)

               示例详见:索引快速扫描(index fast full scan)

           4.3.5 INDEX SKIP SCAN(索引跳跃扫描)

                表有一个复合索引,且在查询时有除了前导列(索引中第一列)外的其他列作为条件,并且优化器模式为CBO时当Oracle发现前导列的唯一值个数很少时,会将每个唯一值都作为常规扫描的入口,在此基础上做一次查找,最后合并这些查询;最后合并查询到的来自两个入口的结果集。

创建一个测试表EMPLOYEE:
create table employee(gender varchar2(1),employee_id number);

将该表的列EMPLOYEE_ID的属性设为NOT NULL:
alter table employee modify(employee_id not null);

创建一个名为IDX_EMPOLYEE的复合B树索引,其中列GENDER是该索引的前导列,列EMPLOYEE_ID是该索引的第二列:
create index idx_employee on employee(gender,employee_id);

使用如下PL/SQL代码往表EMPLOYEE中插入10,000条记录,其中5,000条记录的列GENDER的值为"F",另外5,000条记录的列GENDER的值为"M":

begin
for i in 1..5000 loop
insert into employee values ('F',i);
end loop;
commit;
end;

begin
for i in 5001..10000 loop
insert into employee values ('M',i);
end loop;
commit;
end;

对表EMPLOYEE 及索引收集一下统计信息:
analyze table EMPLOYEE compute statistics for table for all columns for all indexes;
执行以下sql

select * from employee where employee_id = 100;
where条件是"employee_id = 100",即它只对复合B树索引IDX_EMPOLYEE的第二列EMPLOYEE_ID指定了
查询条件,但并没有对该索引的前导列GENDER指定任何查询条件。

       

5 表连接方式

      如3执行计划结果图中 包含JOIN关键词的词汇 如SORT JOIN 表示多表连接时候表的连接方式,JOIN 关键字用于将两张表作连接,一次只能连接两张表,JOIN 操作的各步骤一般是串行的(在读取做连接的两张表的数据时可以并行读取)

      延伸:驱动表(Driving Table)与匹配表(Probed Table)

      驱动表(Driving Table):

            表连接时首先存取的表,又称外层表(Outer Table),这个概念用于 NESTED LOOPS(嵌套循环) 与 HASH JOIN(哈希连接)中;

            如果驱动表返回较多的行数据,则对所有的后续操作有负面影响,故一般选择小表(应用Where限制条件后返回较少行数的表)作为驱动表。

      匹配表(Probed Table):

            又称为内层表(Inner Table),从驱动表获取一行具体数据后,会到该表中寻找符合连接条件的行。故该表一般为大表(应用Where限制条件后返回较多行数的表)。

    5.1 SORT MERGE JOIN(排序-合并连接)

               假设有查询:select a.name, b.name from table_A a join table_B b on (a.id = b.id)

               内部连接过程:

               a) 生成 row source 1 需要的数据,按照连接操作关联列(如示例中的a.id)对这些数据进行排序

               b) 生成 row source 2 需要的数据,按照与 a) 中对应的连接操作关联列(b.id)对数据进行排序

               c) 两边已排序的行放在一起执行合并操作(对两边的数据集进行扫描并判断是否连接)

       延伸:

               如果示例中的连接操作关联列 a.id,b.id 之前就已经被排过序了的话,连接速度便可大大提高,因为排序是很费时间和资源的操作,尤其对于有大量数据的表。

              故可以考虑在 a.id,b.id 上建立索引让其能预先排好序。不过遗憾的是,由于返回的结果集中包括所有字段,所以通常的执行计划中,即使连接列存在索引,也不会进入到执行计划中,除非进行一些特定列处理(如仅仅只查询有索引的列等)。

             排序-合并连接的表无驱动顺序,谁在前面都可以;

             排序-合并连接适用的连接条件有: <   <=   =   >   >= 不适用的连接条件有: <>    like

    5.2 NESTED LOOPS(嵌套循环)

                内部连接过程:

                a) 取出 row source 1 的 row 1(第一行数据),遍历 row source 2 的所有行并检查是否有匹配的,取出匹配的行放入结果集中

                b) 取出 row source 1 的 row 2(第二行数据),遍历 row source 2 的所有行并检查是否有匹配的,取出匹配的行放入结果集中

                c) ……

                若 row source 1 (即驱动表)中返回了 N 行数据,则 row source 2 也相应的会被全表遍历 N 次。

                因为 row source 1 的每一行都会去匹配 row source 2 的所有行,所以当 row source 1 返回的行数尽可能少并且能高效访问 row source 2(如建立适当的索引)时,效率较高。

                延伸:

                嵌套循环的表有驱动顺序,注意选择合适的驱动表。

                嵌套循环连接有一个其他连接方式没有的好处是:可以先返回已经连接的行,而不必等所有的连接操作处理完才返回数据,这样可以实现快速响应。

                应尽可能使用限制条件(Where过滤条件)使驱动表(row source 1)返回的行数尽可能少,同时在匹配表(row source 2)的连接操作关联列上建立唯一索引(UNIQUE INDEX)或是选择性较好的非唯一索引,此时嵌套循环连接的执行效率会变得很高。若驱动表返回的行数较多,即使匹配表连接操作关联列上存在索引,连接效率也不会很高。

    5.3 HASH JOIN(哈希连接)

               哈希连接只适用于等值连接(即连接条件为  = 

               HASH JOIN对两个表做连接时并不一定是都进行全表扫描,其并不限制表访问方式;

               内部连接过程简述:

               Ⅰ 取出 row source 1(驱动表,在HASH JOIN中又称为Build Table) 的数据集,然后将其构建成内存中的一个 Hash      Table(Hash函数的Hash KEY就是连接操作关联列),创建Hash位图(bitmap)

               Ⅱ: 取出 row source 2(匹配表)的数据集,对其中的每一条数据的连接操作关联列使用相同的Hash函数并找到对应的 a) 里的数据在 Hash Table 中的位置,在该位置上检查能否找到匹配的数据

               散列(hash)技术:在记录的存储位置和记录具有的关键字key之间建立一个对应关系 f ,使得输入key后,可以得到对应的存储位置 f(key),这个对应关系 f 就是散列(哈希)函数;

               采用散列技术将记录存储在一块连续的存储空间中,这块连续的存储空间就是散列表(哈希表);

            5.3.1 OPTIMAL HASH JOIN        

               OPTIMAL 模式是从驱动表(也称Build Table)上获取的结果集比较小,可以把根据结果集构建的整个Hash Table都建立在用户可以使用的内存区域里。

             连接过程简述:

             Ⅰ:首先对Build Table内各行数据的连接操作关联列使用Hash函数,把Build Table的结果集构建成内存中的Hash Table。如图所示,可以把Hash Table看作内存中的一块大的方形区域,里面有很多的小格子,Build Table里的数据就分散分布在这些小格子中,而这些小格子就是Hash Bucket(见上面Wiki的定义)。

              Ⅱ:开始读取匹配表(Probed Table)的数据,对其中每行数据的连接操作关联列都使用同上的Hash函数,定位Build Table里使用Hash函数后具有相同值数据所在的Hash Bucket。

              Ⅲ:定位到具体的Hash Bucket后,先检查Bucket里是否有数据,没有的话就马上丢掉匹配表(Probed Table)的这一行。如果里面有数据,则继续检查里面的数据(驱动表的数据)是否和匹配表的数据相匹配。

           5.3.2 ONEPASS HASH JOIN 

             从驱动表(也称Build Table)上获取的结果集较大,无法将根据结果集构建的Hash Table全部放入内存中时,会使用 ONEPASS 模式。

             

             连接过程简述:

             Ⅰ:对Build Table内各行数据的连接操作关联列使用Hash函数,根据Build Table的结果集构建Hash Table后,由于内存无法放下所有的Hash Table内容,将导致有的Hash Bucket放在内存里,有的Hash Bucket放在磁盘上,无论放在内存里还是磁盘里,Oracle都使用一个Bitmap结构来反映这些Hash Bucket的状态(包括其位置和是否有数据)。

             Ⅱ:读取匹配表数据并对每行的连接操作关联列使用同上的Hash函数,定位Bitmap上Build Table里使用Hash函数后具有相同值数据所在的Bucket。如果该Bucket为空,则丢弃匹配表的这条数据。如果不为空,则需要看该Bucket是在内存里还是在磁盘上。

               如果在内存中,就直接访问这个Bucket并检查其中的数据是否匹配,有匹配的话就返回这条查询结果。

               如果在磁盘上,就先把这条待匹配数据放到一边,将其先暂存在内存里,等以后积累了一定量的这样的待匹配数据后,再批量的把这些数据写入到磁盘上(上图中的 Dump probe partitions to disk)。

              Ⅲ:当把匹配表完整的扫描了一遍后,可能已经返回了一部分匹配的数据了。接下来还有Hash Table中一部分在磁盘上的Hash Bucket数据以及匹配表中部分被写入到磁盘上的待匹配数据未处理,现在Oracle会把磁盘上的这两部分数据重新匹配一次,然后返回最终的查询结果。

           5.3.3 MULTIPASS HASH JOIN

             当内存特别小或者相对而言Hash Table的数据特别大时,会使用 MULTIPASS 模式。MULTIPASS会多次读取磁盘数据,应尽量避免使用该模式。

    5.4 CARTESIAN PRODUCT(笛卡尔积)

              多表之间连接,无关联字段,即最终查询行数等于 驱动表*匹配表

    5.5 小结

               NESTED LOOP:嵌套循环连接

               适用于驱动表的记录集比较小(<10000)而且inner表需要有有效的访问方法(Index),并且索引选择性较好的时候.

JOIN的顺序很重要,驱动表的记录集一定要小,返回结果集的响应时间是最快的。

               SORT MERGE JOIN:排序合并连接

               1.RBO模式

               2.不等价关联(>,<,>=,<=,<>)

               3.HASH_JOIN_ENABLED=false

               4. 用在没有索引,并且数据已经排序的情况.

               HASH JOIN:散列连接

               在两个表的数据量差别很大的时候.

      

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值