中亦科技黄远邦技术人生(16) ——红色警报--Oracle宕机潮来临,快快行动起来!

2月14日,情人节前夕,某数据中心一套Oracle 11.2.0.4 RAC宕了!
隔了几天,又有一套RAC宕了!
几天后,紧接着又有一套RAC宕了...
作为运维的你,听到其他客户出现这样的宕机潮时,是不是心底会泛起一阵莫名的恐慌?
那么问题来了,贵司的数据中心到会不会也将出现类似的宕机潮呢?
这些故障是什么原因引起的呢?
这股宕机潮会继续疯狂延续下去么…
如果不能及时找到问题真相,那么小y相信,这股宕机潮还会继续延续下去!
贵中心的Oracle数据库也许正在越来越接近宕机了!可怕的是,你可能还没有察觉到…
这绝对不是危言耸听!
这是在一家超大型数据中心发生的真实故障,在不到两周的时间里,三套不同Oracle数据库先后出现了实例异常终止的情况!
无独有偶,小y服务的其他客户那也陆续出现了宕机的前兆!好在及时发现并处理。
眼看宕机潮来临,看小y如何化繁为简,帮助客户一起解开问题的真相。
真相揭开后,您也许不难发现,这是一个共性的问题!
因此小y不敢怠慢,赶紧拿出来与大家分享,拉响了这次红色警报!
十六期,小y将带领大家一起去经历一场数据中心Oracle数据库宕机潮的分析之旅。
1、问题来啦
小y,出事了,今天有个系统,早上RAC宕了一个节点,晚上又宕了一个节点,操作系统没有重启,只是数据库实例crash掉了!目前已经开了SR,但现在原因还没确定,领导很重视这个问题,明天你能过来一趟一起查下么?领导希望明天就能查清问题原因。
对了,这是一套11.2.0.4 RAC,打了最新的PSU的!
接到电话,小y来了精神。来电的是国内一家超大型的国有银行,本身就拥有一批水准很高的ORACLE DBA。
通常找到小y的问题,都是些奇奇怪怪的复杂问题,如果只懂数据库,而对操作系统/中间件/存储等方面缺乏足够的了解的话,很多时候是无法解决他们的复杂问题的。看来,一场硬仗,在所难免...
2、开始分析
先看看数据库alert日志:
第二天早上,到了客户现场,首先客户向我介绍了昨天发生故障的情况:2月12日早上9点左右,11.2.0.4的RAC节点1宕了,晚上22点,节点2 宕了。

客户帮助登陆到系统后,小y首先检查了数据库的alert日志,如下图所示:


不难看到:2017/2/128:53:49,由于数据库的后台进程ASMB与ASM实例通讯失败,ASMB进程终止了数据库实例,因此,小y需要继续检查ASM的alert日志,以便查看asm实例是否先出现了问题,才导致数据库crash了。

紧接着查看ASM alert日志:


不难看到:在数据库crash前的几十秒之前, 8:53:15,ASM实例的rbal后台进程,遇到了ORA-07445的错误,
rbal进程core dump,因此pmon进程终止了ASM实例。
也就是说,ASM实例rbal进程出现ORA-7445错误,导致ASM实例终止,由于数据库实例依赖ASM实例,因此数据库实例被终止。ASM实例具体的ORA-7445错误是:
ORA-07445: exception encountered: core dump [__lwp_kill()+48] [SIGIOT]
小y刚一开始看到这个错误的时候,无奈的摇了摇头,遇上麻烦了!为什么小y会有如此感慨呢?资深的DBA,也许看到这个错误时,可能会同样的感慨&#x
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值