Oracle检查点ckpt (checkpoint)

由于Oracle中LGWR和DBWR工作的不一致,Oracle引入了检查点的概念,用于同步数据库,保证数据库的一致性。在Oracle里面,检查点分为两种:完全检查点和增量检查点。下面我们分别介绍这两种检查点的作用:


 完全检查点

在Oracle8i之前,数据库的发生的检查点都是完全检查点,完全检查点会将数据缓冲区里面所有的脏数据块写入相应的数据文件中,并且同步数据文件头和控制文件,保证数据库的一致。完全检查点在8i之后只有在下列两种情况下才会发生:

(1、)DBA手工执行alter system checkpoint的命令;

(2、)数据库正常shutdown(immediate,transcational,normal)。

由于完全检查点会将所有的脏数据库块写入,巨大的IO往往会影响到数据库的性能。因此Oracle从8i开始引入了增量检查点的概念。


增量检查点
S Y J l ` @:B0Oracle从8i开始引入了检查点队列这么一种概念,用于记录数据库里面当前所有的脏数据块的信息,DBWR 根据这个队列而将脏数据块写入到数据文件中。检查点队列按时间先后记录着数据库里面脏数据块的信息,里面的条目包含RBA(Redo Block Address,重做日志里面用于标识检查点期间数据块在重做日志里面第一次发生更改的编号)和数据块的数据文件号和块号。在检查点期间不论数据块更改几次,它在检查点队列里面的位置始终保持不变,检查点队列也只会记录它最早的RBA,从而保证最早更改的数据块能够尽快写入。当DBWR将检查点队列里面的脏数据块写入到数据文件后,检查点的位置也要相应地往后移,CKPT每三秒会在控制文件中记录检查点的位置,以表示Instance Recovery时开始恢复的日志条目,这个概念称为检查点的“心跳”(heartbeat)。检查点位置发生变更后,Oracle里面通过4个参数用于控制检查点位置和最后的重做日志条目之间的距离。在这里面需要指出的是,多数人会将这4个参数看作控制增量检查点发生的时间。事实上这是错误的,这4个参数是用于控制检查点队列里面的条目数量,而不是控制检查点的发生。

(1、)fast_start_io_target

该参数用于表示数据库发生Instance Recovery的时候需要产生的IO总数,它通过v$filestat的AVGIOTIM来估算的。比如我们一个数据库在发生Instance Crash后需要在10分钟内恢复完毕,假定OS的IO每秒为500个,那么这个数据库发生Instance Recovery的时候大概将产生500*10*60=30,000次IO,也就是我们将可以把fast_start_io_target设置为 30000。

(2、)fast_start_mttr_target
&o2d [ R _0我们从上面可以看到fast_start_io_target来估算检查点位置比较麻烦。Oracle为了简化这个概念,从9i开始引入了 fast_start_mttr_target这么一个参数,用于表示数据库发生Instance Recovery的时间,以秒为单位。这个参数我们从字面上也比较好理解,其中的mttr是mean time to recovery的简写,如上例中的情况我们可以将fast_start_mttr_target设置为600。当设置了 fast_start_mttr_target后,fast_start_io_target这个参数将不再生效,从9i后 fast_start_io_target这个参数被Oracle废除了。

(3、)log_checkpoint_timeout
| p z2w i [.['Y,U.X0该参数用于表示检查点位置和重做日志文件末尾之间的时间间隔,以秒为单位,默认情况下是1800秒。

(4、)log_checkpoint_intervalITPUB个人空间)G3z0] U q x B+[
该参数是表示检查点位置和重做日志末尾的重做日志块的数量,以OS块表示。

(5、)90% OF SMALLEST REDO LOG
X0V Q,H A X*e0除了以上4个初始化参数外,Oracle内部事实上还将重做日志文件末尾前面90%的位置设为检查点位置。在每个重做日志中,这么几个参数指定的位置可能不尽相同,Oracle将离日志文件末尾最近的那个位置确认为检查点位置。

oracle 9i instance recovery
F8D9@,L k OF9_ ~01. 增量检查点
1~.rb J:A'K0在checkpoint queue的基础上实现了增量检查点,每3秒发生一次checkpoint heartbeat,记录dbwr上次写成功的最大RBA(redo block address)。这样的话做instance recovery的时候就从这个rba开始,而不是从上次checkpoint scn开始,大大节省了恢复时间。ITPUB个人空间 A E Z { [3h+n

}%g2| Q8Q,O#q1F:r02. twice scan of redo logITPUB个人空间 O1[ q M9~ J L ]
在应用redo之前,redo将会被操作两次,第一次去扫描哪些redo record需要被应用,因为9i在redo里添加了dbwr写数据块的信息,所以dbwr发生前的日志将不会被应用。第二步就是选出需要被应用的日志然后开始rollforward。ITPUB个人空间 f U D / v
ITPUB个人空间9F l @ O*h { s
3. rollforward
6B)R5g a B3p9F M+S0在做instance recovery时必须先定位到redo log 然后应用所有日志到datafile,这时候包括了committed和uncommitted的数据。当做完rollward,数据库就可以open了。
8] e0j _ R"Q x Z,v0 ITPUB个人空间"] z*m [ { e }
4. rollback
I U5K f%O/R#A0因 为rollforward产生了uncommitted数据,所以必须回滚这些数据。这将由smon和on-demand rollback来实现。smon将会扫描undo segment header去标志所有活动事务为dead,然后会逐渐去回滚这些事务。另外on-demand rollback提供了前台进程进行rollback,当前台进程企图获得被dead事务占用row lock,这时候前台进程将会去undo segment取得before image去回滚这个块,至于其他被这个dead事务lock的块就等待smon去回滚。
e)T / d2c C7A#S0 ITPUB个人空间 D5Z S R | Q H/`
另外,如果 在数据库打开的过程中process crash导致transaction dead,resource不能被释放的情况,这时候如果另一个进程需要这些resource,那么这个进程将会等待直到pmon清理dead process释放出resource。

如果数据库Crash,重新启动,很久远以前的未提交事务并不在Redo的恢复序列中。
a-B ^ m A7M,h0但是未提交事务一定在回滚段事务表上存在,并且State=10,为活动事务。这就够了。

数据库启动之后,这些事务会被SMON逐个标记为Dead(不可能再活过来了),然后由SMON慢慢去回滚这些事务;也存在另外一种情况,后来的进程会去读这些未提交数据,发现Dead事务未提交,则主动进行回滚。

1. 一个数据块发生更新,必然写回滚
~0_%T x | ["t q02. 回滚段的block变化也记录在redo中

一份未提交的数据必定在回滚中有相应的前镜像,任何正常的恢复都一定会把这些变化重新构建出来。


%@-I5u T*b0想像一下

1. update事务1更新了block 1ITPUB个人空间0I i ^r P n H
2. 回滚段1记录了block1的前镜像
z { j j%v T Z r E,F f03. checkpoint
%t#r.M.X n7I/w04. update事务2更新了block2
_ [!c(w P(J05. 回滚段2记录了block2的前镜像
L h7P.T1Q q @ s2O z06. instance crash

现在重启数据库

1. 根据redo重新构建block2ITPUB个人空间5S+R l l {8u H,d
2. 根据redo重新构建回滚段2
(C.F V y ] x8~03. database openITPUB个人空间/D p;`"V [
4. SMON用回滚段2的数据回滚block2,SMON用回滚段1的数据回滚block1

最后一步也可能是
D d V/n&B"])i.V m0在另外一个select检索到block1或者block2的时候,发现这两个block的数据都是未提交的,此时再回滚block1和block2。

所以,只要有相应的回滚数据存在,无论什么时候oracle都可以找到一致的数据,oracle只需要知道这个事务是提交了的还是没提交了的,而这点在block header ITL中有记录。

http://spaces.msn.com/roujiaweize/blog/cns!9745F14B4AEB3B72!328.entry

對SCN和CKPT的一點理解

scn (system change number,系統改變號),它提供 oracle 的內部時鐘機制,定義數據庫在某個確切時刻提交的版本,其作用是維護數據庫的數據的一致性。


` V$G z ? v D n0ckpt (checkpoint,檢查點),它是一個數據庫事件,它將已修改的數據從高速緩存刷新寫入磁盤,並更新控制文件和數據文件。在一個檢查點之後,重做日誌文件中的重做記錄對於崩潰/實例恢復不再有用。

ITPUB个人空间 } R2S*G;} V&t9L8d
控制文件為每個數據文件保存有一個:checkpoint scn, stop scn,只有數據文件中有 stop scn
s5H;s ]:M$E!^!V0select name,checkpoint_change#,last_change# from v$datafile;


n)J(V z6j t F0系統檢查點 scn (這個看別人寫的,不懂)
;F0l e f S l U-W0select checkpoint_change# from v$database;
0g J f3e6T0當一個檢查點動作完成後,oracle 就把系統檢查點的 scn 存儲到控制文件中。


"g$A B F @ P-c0數據文件頭:數據庫 checkpoint scnITPUB个人空间 H B6n.^%n d)} G
select name,checkpoint_change# from v$datafile_header;(這個是數據庫正常打開時從控制文件中查的,因為數據庫正常打開時這兩個相等,數據文件頭真正的 scn,oracle 自己讀文件頭)

 

控制文件為每個 redo 線程保存有一個:checkpoint scnITPUB个人空间-h R _ M.B R j g*|
select thread#,checkpoint_change# from v$thread;

ITPUB个人空间 ` A1@)N _#eI}
當一個檢查點動作完成後,oracle 更新控制文件中的這些 checkpoint scn (控制文件中一個,所有數據文件頭在控制文件中的存儲,redo 在控制文件中的信息),以及數據文件頭中的 checkpoint scn。所以可以理解,上面這些值都是從控制文件中取出來的。

ITPUB个人空间0w J { { _%{7R v#D
當數據庫用 normal 或者 immediate 選項關閉時,執行檢查點,更新控制文件中數據文件的 stop scn,等於數據文件頭中的 checkpoint scn。


N v0q4N L [ K p0下次啟動數據庫時,oracle 要進行兩次檢查。第一次看數據文件頭中的 checkpoint scn 與控制文件中數據文件的 checkpoint scn。如果相等,進行第二次檢查,檢查數據文件頭中的 checkpoint scn 與控制文件中數據文件的 stop scn。如果相等,不需要對這個文件恢復。每個數據文件都做這樣的檢查,然後打開數據庫,將每個 stop scn 重新置為無窮大。


K"l1} ] R+q0如果用 abort 關閉數據庫,則不執行檢查點處理,控制文件中數據文件的 stop scn 仍為無窮大。

ITPUB个人空间2e v'G R A K j/Y)x
下次啟動時做兩次檢查。如第一次相等,再比較第二個。這時,數據文件頭中的 checkpoint scn 一定是小於控制文件中數據文件的 stop scn 的,需要進行崩潰/實例恢復,進行前滾和回滾。


{7u)f z5f T/[0如果用備份代替了數據文件再啟動數據庫,這時做第一次檢查時,數據文件頭中的 checkpoint scn 一定小於控制文件中數據文件的 checkpoint scn;或者用備份的控制文件代替了控制文件再啟動數據庫,這時數據文件頭中的 checkpoint scn 一定大於控制文件中數據文件的 checkpoint scn。只要這兩個不相等,就需要介質恢復。

ITPUB个人空间!o f g a#H:K [ U
還有一種情況,如果控制文件和數據文件都是備份的,而這兩個 checkpoint scn 正好相等,第一次比較通過,那麼再看第二次比較了。其實這個時候在第一次比較之前,會先比較控制文件中 redo 線程的 checkpoint scn 的和 online log 的 scn,如果相等,繼續,如果不相等(小於),提示控制文件是舊的需要介質恢復。
s*e9I `3? D0

 

本文檔來自于(http://blog.itpub.net/post/94/63495)Oracle检查点ckpt (checkpoint)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值