oracle加并行好不好,深入理解Oracle的并行操作

Oracle数据库并行操作详解

最新推荐文章于 2023-06-20 18:12:57 发布

转载

最新推荐文章于 2023-06-20 18:12:57 发布 · 1.2k 阅读

文章标签：

#oracle加并行好不好

本文深入探讨了Oracle数据库的并行操作机制，包括并行查询、DDL、DML和并行执行的原理与应用。并行处理通过将数据分割成多个部分，由并行服务进程同时处理，提升大规模数据处理的效率。在OLAP系统中，由于数据量大，使用并行处理能显著提高性能。但对OLTP系统，由于数据访问路径多为索引，通常不适用并行。文章还讨论了并行执行的等待事件、优化策略以及并行度的动态调整，强调并行执行需结合硬件资源和SQL优化进行适当配置。

并行(Parallel)和OLAP系统

并行的实现机制是：首先，Oracle会创建一个进程用于协调并行服务进程之间的信息传递，这个协调进程将需要操作的数据集(比如表的数据块)分割成很多部分，称为并行处理单元，然后并行协调进程给每个并行进程分配一个数据单元。比如有四个并行服务进程，他们就会同时处理各自分配的单元，当一个并行服务进程处理完毕后，协调进程就会给它们分配另外的单元，如此反复，直到表上的数据都处理完毕，最后协调进程负责将每个小的集合合并为一个大集合作为最终的执行结果，返回给用户。

并行处理的机制实际上就是把一个要扫描的数据集分成很多小数据集，Oracle会启动几个并行服务进程同时处理这些小数据集，最后将这些结果汇总，作为最终的处理结果返回给用户。

这种数据并行处理方式在OLAP系统中非常有用，OLAP系统的表通常来说都是非常大，如果系统的CPU比较多，让所有的CPU共同来处理这些数据，效果就会比串行执行要高得多。

然而对于OLTP系统，通常来讲，并行并不合适，原因是OLTP系统上几乎在所有的SQL操作中，数据访问路径基本上以索引访问为主，并且返回结果集非常小，这样的SQL操作的处理速度一般非常快，不需要启用并行。

并行处理的机制

当Oracle数据库启动的时候，实例会根据初始化参数 PARALLEL_MIN_SERVERS=n的值来预先分配n个并行服务进程，当一条SQL被CBO判断为需要并行执行时发出SQL的会话进程变成并行协助进程，它按照并行执行度的值来分配进程服务器进程。

首先协调进程会使用ORACLE启动时根据参数： parallel_min_servers=n的值启动相应的并行服务进程，如果启动的并行服务器进程数不足以满足并行度要求的并行服务进程数，则并行协调进程将额外启动并行服务进程以提供更多的并行服务进程来满足执行的需求。然后并行协调进程将要处理的对象划分成小数据片，分给并行服务进程处理；并行服务进程处理完毕后将结果发送给并行协调进程，然后由并行协调进程将处理结果汇总并发送给用户。

刚才讲述的是一个并行处理的基本流程。实际上，在一个并行执行的过程中，还存在着并行服务进程之间的通信问题。

在一个并行服务进程需要做两件事情的时候，它会再启用一个进程来配合当前的进程完成一个工作，比如这样的一条SQL语句：

Select * from employees order by last_name;

假设employees表中last_name列上没有索引，并且并行度为4，此时并行协调进程会分配4个并行服务进程对表employees进行全表扫描操作，因为需要对结果集进行排序，所以并行协调进程会额外启用4个并行服务进程，用于处理4个进程传送过来的数据，这新启用的用户处理传递过来数据的进程称为父进程，用户传出数据(最初的4个并行服务进程)称为子进程，这样整个并行处理过程就启用了8个并行服务进程。其中每个单独的并行服务进程的行为叫作并行的内部操作，而并行服务进程之间的数据交流叫做并行的交互操作。

这也是有时我们发现并行服务进程数量是并行度的2倍，就是因为启动了并行服务父进程操作的缘故。

读懂一个并行处理的执行计划

CREATE TABLE emp2 AS SELECT * FROM employees;

ALTER TABLE emp2 PARALLEL 2;

EXPLAIN PLAN FOR SELECT SUM(salary) FROM emp2 GROUP BY department_id;

SQL> select * from table(dbms_xplan.display);

PLAN_TABLE_OUTPUT

---------------------------------------------------------------------------------------------------------------------

Plan hash value: 3939201228

------------------------------------------------------------------------------------------------------------------

------------------------------------------------------------------------------------------------------------------

| 0 | SELECT STATEMENT | | 107 | 2782 | 3 (34)| 00:00:01 | | | |

| 1 | PX COORDINATOR | | | | | | | | |

| 2 | PX SEND QC (RANDOM) | :TQ10001 | 107 | 2782 | 3 (34)| 00:00:01 | Q1,01 | P->S | QC (RAND) |

| 3 | HASH GROUP BY | | 107 | 2782 | 3 (34)| 00:00:01 | Q1,01 | PCWP | |

| 4 | PX RECEIVE | | 107 | 2782 | 3 (34)| 00:00:01 | Q1,01 | PCWP | |

| 5 | PX SEND HASH | :TQ10000 | 107 | 2782 | 3 (34)| 00:00:01 | Q1,00 | P->P | HASH |

| 6 | HASH GROUP BY | | 107 | 2782 | 3 (34)| 00:00:01 | Q1,00 | PCWP | |

| 7 | PX BLOCK ITERATOR | | 107 | 2782 | 2 (0)| 00:00:01 | Q1,00 | PCWC | |

| 8 | TABLE ACCESS FULL| EMP2 | 107 | 2782 | 2 (0)| 00:00:01 | Q1,00 | PCWP | |

------------------------------------------------------------------------------------------------------------------

Note

-----

- dynamic sampling used for this statement

19 rows selected.

通过执行计划，我们来看一下它的执行步骤：

1、并行服务进程对EMP2表进行全表扫描。

2、并行服务进程以ITERATOR(迭代)方式访问数据块，也就是并行协调进程分给每个并行服务进程一个数据片，在这个数据片上，并行服务进程顺序地访问每个数据块(Iterator)，所有的并行服务进程将扫描的数据块传给另一组并行服务进程(父进程)用于做Hash Group操作。

3、并行服务父进程对子进程传递过来的数据做Hash Group操作。

4、并行服务进程(子进程)将处理完的数据发送出去。

5、并行服务进程(父进程)接收到处理过的数据。

6、合并处理过的数据，按照随机的顺序发给并行协调进程(QC：Query Conordinator)。

7、并行协调进程将处理结果发给用户。

当使用了并行执行，SQL的执行计划中就会多出一列：in-out。该列帮助我们理解数据流的执行方法。它的一些值的含义如下：

Parallel to Serial(P->S): 表示一个并行操作发送数据给一个串行操作

Parallel to Parallel(P->P)：表示一个并行操作向另一个并行操作发送数据

Parallel Combined with parent(PCWP): 同一个从属进程执行的并行操作，同时父操作也是并行的。

Parallel Combined with Child(PCWC): 同一个从属进程执行的并行操作，子操作也是并行的。

Serial to Parallel(S->P): 一个串行操作发送数据给并行操作，如果select部分是串行操作，就会出现这个情况。

并行执行等待事件

在做并行执行方面的性能优化的时候，可能会遇到如下等待事件

PX Deq Credit: send blkd

这是一个有并行环境的数据库中，从statspack 或者AWR中经常可以看到的等待事件。在Oracle 9i 里面，这个等待时间被列入空闲等待。

一般来说空闲等待可以忽略它，但是实际上空闲等待也是需要关注的，因为一个空闲的等待，它反映的是另外的资源已经超负荷运行了。基于这个原因，在Oracle 10g里已经把PX Deq Credit: send blkd等待时间不再视为空闲等待，而是列入了Others 等待事件范围。

PX Deq Credit: send blkd 等待事件的意思是：当并行服务进程向并行协调进程QC(也可能是上一层的并行服务进程)发送消息时，同一时间只有一个并行服务进程可以向上层进程发送消息，这时候如果有其他的并行服务进程也要发送消息，就只能等待了。直到获得一个发送消息的信用信息(Credit)，这时候会触发这个等待事件，这个等待事件的超时时间为2秒钟。

如果我们启动了太多的并行进程，实际上系统资源(CPU)或者QC 无法即时处理并行服务发送的数据，那么等待将不可避免。对于这种情况，我们就需要降低并行处理的并行度。

当出现PX Deq Credit：send blkd等待的时间很长时，我们可以通过平均等待时间来判断等待事件是不是下层的并行服务进程空闲造成的。该等待事件的超时时间是2秒，如果平均等待时间也差不多是2秒，就说明是下层的并行进程“无事所做”，处于空闲状态。如果和2秒的差距很大，就说明不是下层并行服务超时导致的空闲等待，而是并行服务之间的竞争导致的，因为这个平均等待事件非常短，说明并行服务进程在很短时间的等待之后就可以获取资源来处理数据。

所以对于非下层的并行进程造成的等待，解决的方法就是降低每个并行执行的并行度，比如对象(表，索引)上预设的并行度或者查询Hint 指定的并行度。

并行执行的使用范围

Parallel Query( 并行查询 )

并行查询可以在查询语句，子查询语句中使用，但是不可以使用在一个远程引用的对象上(如DBLINK)。

一个查询能够并行执行，需要满足以下条件

1、SQL语句中有Hint提示，比如Parallel或者Parallel_index。

2、SQL语句中引用的对象被设置了并行属性。

3、多表关联中，至少有一个表执行全表扫描(Full table scan)或者跨分区的Index range SCAN。如：

select /*+parallel(t 4)×/ * from t;

Parallel DDL(并行DDL操作，如建表，建索引等)

表的并行操作

CREATE TABLE table_name parallel 4 AS SELECT ....

ALTER TABLE table_name move partition partition_name parallel 4;

Alter table table_name split partition partition_name ...... parallel 4;

Alter table table_name coalesce partition parallel 4;

DDL操作，我们可以通过trace 文件来查看它的执行过程。

alter session set events '10046 trace name context forever,level 12';

alter session set events '10046 trace name context off' ;

创建索引的并行执行

创建索引时使用并行方式在系统资源充足的时候会使性能得到很大的提高，特别是在OLAP系统上对一些很大的表创建索引时更是如此。以下的创建和更改索引的操作都可以使用并行：

Create index index_name on table_name(colum_name) parallel 4;

Alter index index_name rebuild parallel 4

Alter index index_name rebuild partition partition_name parallel 4;

Alter index index_name split partition partition_name .... parallel 4;

注意：索引上的并行度只有在访问索引的时候才可以被使用。

总结：

使用并行方式，不论是创建表，修改表，创建索引，重建索引，他们的机制都是一样的，那就是Oracle 给每个并行

最低0.47元/天解锁文章