丢失本地心跳导致主机重启

20200714--xx电信计费计算节点丢失本地心跳重启

 

客户:电信

操作系统:redhat 6.9

数据库版本:oracle 12.2.0.1

问题描述:xxx计算节点1 丢失本地心跳导致计算节点1重启,2020-07-14分重启。

盘查人员:xxx

1、计算节点1集群altert日志显示如下cssd守护进程无响应,reboot即将发生。cssdmonitor和assdaget进程监控到cssd无响应,丢失了本地心跳,导致计算节点1重启。这只是一个结果,不是原因,需要分析是什么导致了ocssd进程hang住了呢?

2、计算节点1中主机重启前的ohasd_cssdagent_root.trc的日志,发生了disk 超时,和network 超时。但是检查了集群的IO 、以及私网状态都是正常的。

3、检查了主机重启前的系统日志发现有如下异常gdb进程调用,再没有任何异常错误,但是哪里会调用gdb进程呢?。

4、查看mos相关文章有如下发现;与mos描述一致。

4、从mos上提供案例的程树中,我们可以看到有一个针对ocssd.bin运行的pstack命令,父进程是<GRID HOME>/bin/bin/diagsnap.pl脚本。因此我们根据生产环境系统日志打印出gdb的进程可以判断,当时ocssd进程hang的原因可能是diagsnap.pl脚本的子进程pstack,而pstack子进程调用了gdb进程监视ocssd而导致ocssd挂起,所以触发了本地心跳超时,导致重启主机。(没有开启OSwatcher,只能根据mos上的案例和系统日志gdb调用分析)

5、具体问题分析:

            从版本12.2.0.1开始,默认情况下,集群运行状况监视器(CHM)框架持续执行脚本“<GRID HOME>/bin/diagsnap.pl”。在某些条件下,该脚本对关键的集群程序进程执行“pstack”命令。“pstack”的输出可以用于诊断集群软件问题,但是“pstack”命令的执行和锁定会导致这些关键的集群软件进程挂起(特别是ocssd.bin),从而触发集群软件崩溃。

 

6、避免此问题发生。

当前的建议做法是:禁用diagsnap采集信息。

<GRID_HOME>/bin/oclumon manage -disable diagsnap

7、具体查看mos(Unexpected clusterware crashes after the installation or upgrade to 12.2 Grid Infrastructure (Doc ID 2251437.1)

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值