丢失本地心跳导致主机重启

最新推荐文章于 2024-04-26 19:05:36 发布

生命只剩百分之一

最新推荐文章于 2024-04-26 19:05:36 发布

阅读量403

点赞数

分类专栏： Oracle

本文链接：https://blog.csdn.net/qq_22083251/article/details/107602056

版权

Oracle 专栏收录该内容

35 篇文章 1 订阅

订阅专栏

20200714--xx电信计费计算节点丢失本地心跳重启

客户：电信

操作系统：redhat 6.9

数据库版本：oracle 12.2.0.1

问题描述：xxx计算节点1 丢失本地心跳导致计算节点1重启，2020-07-14分重启。

盘查人员：xxx

1、计算节点1集群altert日志显示如下cssd守护进程无响应，reboot即将发生。cssdmonitor和assdaget进程监控到cssd无响应，丢失了本地心跳，导致计算节点1重启。这只是一个结果，不是原因，需要分析是什么导致了ocssd进程hang住了呢？

2、计算节点1中主机重启前的ohasd_cssdagent_root.trc的日志，发生了disk 超时，和network 超时。但是检查了集群的IO 、以及私网状态都是正常的。

3、检查了主机重启前的系统日志发现有如下异常gdb进程调用，再没有任何异常错误，但是哪里会调用gdb进程呢？。

4、查看mos相关文章有如下发现；与mos描述一致。

4、从mos上提供案例的程树中，我们可以看到有一个针对ocssd.bin运行的pstack命令，父进程是<GRID HOME>/bin/bin/diagsnap.pl脚本。因此我们根据生产环境系统日志打印出gdb的进程可以判断，当时ocssd进程hang的原因可能是diagsnap.pl脚本的子进程pstack，而pstack子进程调用了gdb进程监视ocssd而导致ocssd挂起，所以触发了本地心跳超时，导致重启主机。（没有开启OSwatcher，只能根据mos上的案例和系统日志gdb调用分析）

5、具体问题分析：

从版本12.2.0.1开始，默认情况下，集群运行状况监视器(CHM)框架持续执行脚本“<GRID HOME>/bin/diagsnap.pl”。在某些条件下，该脚本对关键的集群程序进程执行“pstack”命令。“pstack”的输出可以用于诊断集群软件问题，但是“pstack”命令的执行和锁定会导致这些关键的集群软件进程挂起(特别是ocssd.bin)，从而触发集群软件崩溃。

6、避免此问题发生。

当前的建议做法是：禁用diagsnap采集信息。

<GRID_HOME>/bin/oclumon manage -disable diagsnap

7、具体查看mos（Unexpected clusterware crashes after the installation or upgrade to 12.2 Grid Infrastructure (Doc ID 2251437.1)）