oracle12.2 asm进程,Oracle ASM Rebalance执行过程

最新推荐文章于 2021-09-29 16:27:20 发布

霸气sir

最新推荐文章于 2021-09-29 16:27:20 发布

阅读量757

点赞数

文章标签： oracle12.2 asm进程

磁盘组的rebalance什么时候能完成？这没有一个具体的数值，但ASM本身已经给你提供了一个估算值(GV$ASM_OPERATION.EST_MINUTES)，想知道rebalance完成的精确的时间，虽然不能给出一个精确的时间，但是可以查看一些rebalance的操作细节，让你知道当前rebalance是否正在进行中，进行到哪个阶段，以及这个阶段是否需要引起你的关注。

理解rebalance

rebalance操作本身包含了3个阶段-planning, extents relocation 和 compacting，就rebalance需要的总时间而言，planning阶段需要的时间是非常少的，你通常都不用去关注这一个阶段，第二个阶段extent relocation一般会占取rebalance阶段的大部分时间，也是我们最为需要关注的阶段，最后我们也会讲述第三阶段compacting阶段在做些什么。

首先需要明白为什么会需要做rebalance，如果你为了增加磁盘组的可用空间，增加了一块新磁盘或者为了调整磁盘的空间，例如resizing或者删除磁盘，你可能也不会太去关注rebalance啥时候完成。但是，如果磁盘组中的一块磁盘损坏了，这个时候你就有足够的理由关注rebalance的进度了，假如，你的磁盘组是normal冗余的，这个时候万一你损坏磁盘的partner磁盘也损坏，那么你的整个磁盘组会被dismount，所有跑在这个磁盘组上的数据库都会crash，你可能还会丢失数据。在这种情况下，你非常需要知道rebalance什么时候完成，实际上，你需要知道第二个阶段extent relocation什么时候完成，一旦它完成了，整个磁盘组的冗余就已经完成了(第三个阶段对于冗余度来说并不重要，后面会介绍)。

Extents relocation

为了进一步观察extents relocation阶段，我删除了具有默认并行度的磁盘组上的一块磁盘：

SQL> show parameter power

NAME TYPE VALUE

------------------------------------ ---------------------- ------------------------------

asm_power_limit integer 1

14:47:35 SQL> select group_number,disk_number,name,state,path,header_status from v$asm_disk where group_number=5;

GROUP_NUMBER DISK_NUMBER NAME STATE PATH HEADER_STATUS

------------ ----------- -------------------- -------------------- -------------------- --------------------

5 0 TESTDG_0000 NORMAL /dev/raw/raw7 MEMBER

5 2 TESTDG_0002 NORMAL /dev/raw/raw13 MEMBER

5 1 TESTDG_0001 NORMAL /dev/raw/raw12 MEMBER

5 3 TESTDG_0003 NORMAL /dev/raw/raw14 MEMBER

14:48:38 SQL> alter diskgroup testdg drop disk TESTDG_0000;

Diskgroup altered.

下面视图GV$ASMOPERATION的ESTMINUTES字段给出了估算值的时间，单位为分钟，这里给出的估算时间为9分钟。

14:49:04 SQL> select inst_id, operation, state, power, sofar, est_work, est_rate, est_minutes from gv$asm_operation where group_number=5;

INST_ID OPERATION STATE POWER SOFAR EST_WORK EST_RATE EST_MINUTES

---------- -------------------- -------------------- ---------- ---------- ---------- ---------- -----------

1 REBAL RUN 1 4 4748 475 9

大约过了1分钟后，EST_MINUTES的值变为了0分钟：

14:50:22 SQL> select inst_id, operation, state, power, sofar, est_work, est_rate, est_minutes from gv$asm_operation where group_number=5;

INST_ID OPERATION STATE POWER SOFAR EST_WORK EST_RATE EST_MINUTES

---------- -------------------- -------------------- ---------- ---------- ---------- ---------- -----------

1 REBAL RUN 1 3030 4748 2429 0

有些时候EST_MINUTES的值可能并不能给你太多的证据，我们还可以看到SOFAR(截止目前移动的UA数)的值一直在增加，恩，不错，这是一个很好的一个观察指标。ASM的alert日志中也显示了删除磁盘的操作，以及OS ARB0进程的ID，ASM用它用来做所有的rebalance工作。更重要的，整个过程之中，没有任何的错误输出：

SQL> alter diskgroup testdg drop disk TESTDG_0000

NOTE: GroupBlock outside rolling migration privileged region

NOTE: requesting all-instance membership refresh for group=5

Tue Jan 10 14:49:01 2017

GMON updating for reconfiguration, group 5 at 222 for pid 42, osid 6197

NOTE: group 5 PST updated.

Tue Jan 10 14:49:01 2017

NOTE: membership refresh pending for group 5/0x97f863e8 (TESTDG)

GMON querying group 5 at 223 for pid 18, osid 5012

SUCCESS: refreshed membership for 5/0x97f863e8 (TESTDG)

NOTE: starting rebalance of group 5/0x97f863e8 (TESTDG) at power 1

Starting background process ARB0

SUCCESS: alter diskgroup testdg drop disk TESTDG_0000

Tue Jan 10 14:49:04 2017

ARB0 started with pid=39, OS id=25416

NOTE: assigning ARB0 to group 5/0x97f863e8 (TESTDG) with 1 parallel I/O

cellip.ora not found.

NOTE: F1X0 copy 1 relocating from 0:2 to 2:2 for diskgroup 5 (TESTDG)

NOTE: F1X0 copy 3 relocating from 2:2 to 3:2599 for diskgroup 5 (TESTDG)

Tue Jan 10 14:49:13 2017

NOTE: Attempting voting file refresh on diskgroup TESTDG

NOTE: Refresh completed on diskgroup TESTDG. No voting file found.

Tue Jan 10 14:51:05 2017

NOTE: stopping process ARB0

SUCCESS: rebalance completed for group 5/0x97f863e8 (TESTDG)

Tue Jan 10 14:51:07 2017

NOTE: GroupBlock outside rolling migration privileged region

NOTE: requesting all-instance membership refresh for group=5

Tue Jan 10 14:51:10 2017

GMON updating for reconfiguration, group 5 at 224 for pid 39, osid 25633

NOTE: group 5 PST updated.

SUCCESS: grp 5 disk TESTDG_0000 emptied

NOTE: erasing header on grp 5 disk TESTDG_0000

NOTE: process _x000_+asm1 (25633) initiating offline of disk 0.3915944675 (TESTDG_0000) with mask 0x7e in group 5

NOTE: initiating PST update: grp = 5, dsk = 0/0xe96892e3, mask = 0x6a, op = clear

GMON updating disk modes for group 5 at 225 for pid 39, osid 25633

NOTE: group TESTDG: updated PST location: disk 0001 (PST copy 0)

NOTE: group TESTDG: updated PST location: disk 0002 (PST copy 1)

NOTE: group TESTDG: updated PST location: disk 0003 (PST copy 2)

NOTE: PST update grp = 5 completed successfully

NOTE: initiating PST update: grp = 5, dsk = 0/0xe96892e3, mask = 0x7e, op = clear

GMON updating disk modes for group 5 at 226 for pid 39, osid 25633

NOTE: cache closing disk 0 of grp 5: TESTDG_0000

NOTE: PST update grp = 5 completed successfully

GMON updating for reconfiguration, group 5 at 227 for pid 39, osid 25633

NOTE: cache closing disk 0 of grp 5: (not open) TESTDG_0000

NOTE: group 5 PST updated.

NOTE: membership refresh pending for group 5/0x97f863e8 (TESTDG)

GMON querying group 5 at 228 for pid 18, osid 5012

GMON querying group 5 at 229 for pid 18, osid 5012

NOTE: Disk TESTDG_0000 in mode 0x0 marked for de-assignment

SUCCESS: refreshed membership for 5/0x97f863e8 (TESTDG)

Tue Jan 10 14:51:16 2017

NOTE: Attempting voting file refresh on diskgroup TESTDG

NOTE: Refresh completed on diskgroup TESTDG. No voting file found.

因此ASM预估了9分钟的时间来完成rebalance，但实际上只使用了2分钟的时候,因此首先能知道rebalance正在做什么非常重要，然后才能知道rebalance什么时候能完成。注意，估算的时间是动态变化的，可能会增加或减少，这个依赖你的系统负载变化，以及你的rebalance的power值的设置，对于一个非常大容量的磁盘组来说，可能rebalance会花费你数小时甚至是数天的时间。

ARB0进程的跟踪文件也显示了，当前正在对哪一个ASM文件的extent的在进行重分配，也是通过这个跟踪文件，我们可以知道ARB0确实是在干着自己的本职工作，没有偷懒。

[grid@jyrac1 trace]$ tail -f +ASM1_arb0_25416.trc

*** 2017-01-10 14:49:20.160