2月14日,情人节前夕,某数据中心一套Oracle 11.2.0.4 RAC宕了!
隔了几天,又有一套RAC宕了!
几天后,紧接着又有一套RAC宕了...
作为运维的你,听到其他客户出现这样的宕机潮时,是不是心底会泛起一阵莫名的恐慌?
那么问题来了,贵司的数据中心到会不会也将出现类似的宕机潮呢?
这些故障是什么原因引起的呢?
这股宕机潮会继续疯狂延续下去么…
如果不能及时找到问题真相,那么小y相信,这股宕机潮还会继续延续下去!
贵中心的Oracle数据库也许正在越来越接近宕机了!可怕的是,你可能还没有察觉到…
这绝对不是危言耸听!
这是在一家超大型数据中心发生的真实故障,在不到两周的时间里,三套不同Oracle数据库先后出现了实例异常终止的情况!
无独有偶,小y服务的其他客户那也陆续出现了宕机的前兆!好在及时发现并处理。
眼看宕机潮来临,看小y如何化繁为简,帮助客户一起解开问题的真相。
真相揭开后,您也许不难发现,这是一个共性的问题!
因此小y不敢怠慢,赶紧拿出来与大家分享,拉响了这次红色警报!
十六期,小y将带领大家一起去经历一场数据中心Oracle数据库宕机潮的分析之旅。
1、问题来啦
小y,出事了,今天有个系统,早上RAC宕了一个节点,晚上又宕了一个节点,操作系统没有重启,只是数据库实例crash掉了!目前已经开了SR,但现在原因还没确定,领导很重视这个问题,明天你能过来一趟一起查下么?领导希望明天就能查清问题原因。
对了,这是一套11.2.0.4 RAC,打了最新的PSU的!
接到电话,小y来了精神。来电的是国内一家超大型的国有银行,本身就拥有一批水准很高的ORACLE DBA。
通常找到小y的问题,都是些奇奇怪怪的复杂问题,如果只懂数据库,而对操作系统/中间件/存储等方面缺乏足够的了解的话,很多时候是无法解决他们的复杂问题的。看来,一场硬仗,在所难免...
2、开始分析
先看看数据库alert日志:
第二天早上,到了客户现场,首先客户向我介绍了昨天发生故障的情况:2月12日早上9点左右,11.2.0.4的RAC节点1宕了,晚上22点,节点2 宕了。
rbal进程core dump,因此pmon进程终止了ASM实例。
也就是说,ASM实例rbal进程出现ORA-7445错误,导致ASM实例终止,由于数据库实例依赖ASM实例,因此数据库实例被终止。ASM实例具体的ORA-7445错误是:
ORA-07445: exception encountered: core dump [__lwp_kill()+48] [SIGIOT]
小y刚一开始看到这个错误的时候,无奈的摇了摇头,遇上麻烦了!为什么小y会有如此感慨呢?资深的DBA,也许看到这个错误时,可能会同样的感慨&#x
隔了几天,又有一套RAC宕了!
几天后,紧接着又有一套RAC宕了...
作为运维的你,听到其他客户出现这样的宕机潮时,是不是心底会泛起一阵莫名的恐慌?
那么问题来了,贵司的数据中心到会不会也将出现类似的宕机潮呢?
这些故障是什么原因引起的呢?
这股宕机潮会继续疯狂延续下去么…
如果不能及时找到问题真相,那么小y相信,这股宕机潮还会继续延续下去!
贵中心的Oracle数据库也许正在越来越接近宕机了!可怕的是,你可能还没有察觉到…
这绝对不是危言耸听!
这是在一家超大型数据中心发生的真实故障,在不到两周的时间里,三套不同Oracle数据库先后出现了实例异常终止的情况!
无独有偶,小y服务的其他客户那也陆续出现了宕机的前兆!好在及时发现并处理。
眼看宕机潮来临,看小y如何化繁为简,帮助客户一起解开问题的真相。
真相揭开后,您也许不难发现,这是一个共性的问题!
因此小y不敢怠慢,赶紧拿出来与大家分享,拉响了这次红色警报!
十六期,小y将带领大家一起去经历一场数据中心Oracle数据库宕机潮的分析之旅。
1、问题来啦
小y,出事了,今天有个系统,早上RAC宕了一个节点,晚上又宕了一个节点,操作系统没有重启,只是数据库实例crash掉了!目前已经开了SR,但现在原因还没确定,领导很重视这个问题,明天你能过来一趟一起查下么?领导希望明天就能查清问题原因。
对了,这是一套11.2.0.4 RAC,打了最新的PSU的!
接到电话,小y来了精神。来电的是国内一家超大型的国有银行,本身就拥有一批水准很高的ORACLE DBA。
通常找到小y的问题,都是些奇奇怪怪的复杂问题,如果只懂数据库,而对操作系统/中间件/存储等方面缺乏足够的了解的话,很多时候是无法解决他们的复杂问题的。看来,一场硬仗,在所难免...
2、开始分析
先看看数据库alert日志:
第二天早上,到了客户现场,首先客户向我介绍了昨天发生故障的情况:2月12日早上9点左右,11.2.0.4的RAC节点1宕了,晚上22点,节点2 宕了。
客户帮助登陆到系统后,小y首先检查了数据库的alert日志,如下图所示:
紧接着查看ASM alert日志:
rbal进程core dump,因此pmon进程终止了ASM实例。
也就是说,ASM实例rbal进程出现ORA-7445错误,导致ASM实例终止,由于数据库实例依赖ASM实例,因此数据库实例被终止。ASM实例具体的ORA-7445错误是:
ORA-07445: exception encountered: core dump [__lwp_kill()+48] [SIGIOT]
小y刚一开始看到这个错误的时候,无奈的摇了摇头,遇上麻烦了!为什么小y会有如此感慨呢?资深的DBA,也许看到这个错误时,可能会同样的感慨&#x