某系统业务数据库异常宕机故障分析处理

背景

        某日14:55接收到告警短信,提示某系统业务数据库节点二实例异常终止,节点二集群服务异常,当即前往现场进行处理。

故障描述

5月20日14:时55分,接到营销基础数据平台短信告警。告警信息具体情况如下:

数据库实例异常:

[XXXX-cluster][ora.net1.network has 0 instances in OFFLINE State][EM12C][May 20,XXXX 2:55:38 PM CST]

故障处理过程

收到告警信息后,查看集群状态,显示节点二已恢复:

查看节点二集群crsd日志,发现于14:54:55停止记录日志

集群告警日志15:05:01提示集群服务已启动

数据库告警日志于14:54:54后停止记录日志,于15:06恢复记录日志

操作系统日志messages于14:54:10后停止记录日志,于15:04:24开始记录日志

节点一日志信息:

集群告警信息于14:55:34提示removed节点二,15:05:36提示集群配置信息重新恢复。

故障原因分析

        业务系统数据库节点二实例故障于14:55:38发出告警,运维人员15:25分到达现场,检查集群状态,节点二集群相关服务已恢复正常。

        通过日志分析发现:

        节点二于14:54:55停止记录集群crs日志,于14:54:54停止记录数据库alert日志,于 15:05:01停止记录集群告警日志,于14:54:10停止记录主机messages日志。主机日志于15:04恢复记录,其他日志于15:05后恢复记录。

        根据日志记录信息判断:

        节点二:于14:54分发生故障并于15:04恢复,期间未发现日志产生。故障点前,节点二集群日志、数据库告警日志未发现报错信息及告警信息。

        节点一:于14:55:19开始报与节点二心跳网络通信丢失, 14:55:34提示removed节点二,15:05:36提示集群配置信息重新恢复。

        综上判断,由于节点二主机故障导致该节点被removed。

  • 7
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值