2013-05-07数据泵备份引发的悲剧

        事情大致经过:4720:15接到实施组邮件,反馈系统某查询功能白屏。进一步了解情况,实施组在19点多钟曾接到客户电话反馈18:00-19:00系统很慢,期间系统也在做安全扫描,应用服务器负载偏高。得到消息后,实施组回到现场,发现点击某查询有一次是可以的,然后多次又白屏。

       早上收到数据库报告,分析最后的结论是18点到19点,系统处于不可用的状态。19点到20点情况数据库负载比起之前一个小时降低了很多。数据库负载高的根本原因是数据泵expdp备份导致。   

 Snap IdSnap TimeSessionsCursors/Session
Begin Snap:3172207-May-13 18:00:3125919.6
End Snap:3172307-May-13 19:00:4727320.4
Elapsed: 60.25 (mins)  
DB Time: 8,796.21 (mins)  
 
EventWaitsTime(s)Avg Wait(ms)% Total Call TimeWait Class
latch: cache buffers chains883,811173,47019632.9Concurrency
CPU time 14,125 2.7 
wait list latch free51,2451,24124.2Other
db file sequential read1,915,2557680.1User I/O
latch free2,558517202.1Other

       分析18:00-19:00AWR报告,分析TOP5等待事件latch: cache buffers chains排在第一位,等待时长为173,470s。数据库在取数据块时为了保护内存的数据结构而加了latch(一种锁,很短暂),当SQL逻辑读过高,在并发的情况下大家都要去相同的数据块而产生等待事件。

        然后分析SQL执行时间的排行,发现都是试验模块的SQL,四月份也发生过类似的问题。对比42211:00-12:00数据库CPU 100%的报告,当时latch: cache buffers chains等待时长是11,720s。相比之下,422日的SQL并发比57日的要大,而等待的时间却只是7日的十分之一。继续分析发现BEGIN SYS.KUPW$WORKER.MAIN('FULL126', 'SYSTEM'); END; ,这说明此时数据泵正在执行。

       问题变得明朗,expdp需要全表扫,要把数据块都读到内存中,进行导出,当进入内存后,expdp获得了数据块的latch,但是这时候有个大sql进来了,要访问的数据块expdp正在访问,大SQL也要获得latch,虽然latch很快,但是此时访问的特别多,然后悲剧就发生了。

      给出的建议

        现在备份是18:00,要调到晚一点,越少用户使用越好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值