背景
某日14:55接收到告警短信,提示某系统业务数据库节点二实例异常终止,节点二集群服务异常,当即前往现场进行处理。
故障描述
5月20日14:时55分,接到营销基础数据平台短信告警。告警信息具体情况如下:
数据库实例异常: [XXXX-cluster][ora.net1.network has 0 instances in OFFLINE State][EM12C][May 20,XXXX 2:55:38 PM CST] |
故障处理过程
收到告警信息后,查看集群状态,显示节点二已恢复:
查看节点二集群crsd日志,发现于14:54:55停止记录日志
集群告警日志15:05:01提示集群服务已启动
数据库告警日志于14:54:54后停止记录日志,于15:06恢复记录日志
操作系统日志messages于14:54:10后停止记录日志,于15:04:24开始记录日志
节点一日志信息:
集群告警信息于14:55:34提示removed节点二,15:05:36提示集群配置信息重新恢复。
故障原因分析
业务系统数据库节点二实例故障于14:55:38发出告警,运维人员15:25分到达现场,检查集群状态,节点二集群相关服务已恢复正常。
通过日志分析发现:
节点二于14:54:55停止记录集群crs日志,于14:54:54停止记录数据库alert日志,于 15:05:01停止记录集群告警日志,于14:54:10停止记录主机messages日志。主机日志于15:04恢复记录,其他日志于15:05后恢复记录。
根据日志记录信息判断:
节点二:于14:54分发生故障并于15:04恢复,期间未发现日志产生。故障点前,节点二集群日志、数据库告警日志未发现报错信息及告警信息。
节点一:于14:55:19开始报与节点二心跳网络通信丢失, 14:55:34提示removed节点二,15:05:36提示集群配置信息重新恢复。
综上判断,由于节点二主机故障导致该节点被removed。