关于网络心跳与磁盘心跳超时多久会引发节点重启的问题

最新推荐文章于 2024-08-06 15:01:00 发布

置顶

IT圈黎俊杰

最新推荐文章于 2024-08-06 15:01:00 发布

阅读量4.7k

点赞数

分类专栏： ORACLE RAC 文章标签： heartbeat fatal 网络心跳磁盘心跳 misscount disktimeout

本文链接：https://blog.csdn.net/ljunjie82/article/details/48995829

版权

本文探讨了Oracle RAC系统中网络心跳和磁盘心跳的超时问题，涉及到OCSSD守护进程、misscount（MC）、disktimeout（DTO）和reboottime参数。不同平台和Oracle版本的默认最大延迟时间不同，且可调整。网络心跳超时比例和磁盘心跳的i/o timeout间隔与MC和DTO有关，超时可能导致节点重启或数据库挂起。在生产环境中进行网络操作需谨慎。

摘要由CSDN通过智能技术生成

最近时间，一从事系统运维的同事问我，说，因为需要调整网络，需要对一套生产中的RAC的期中一台主机的网络心跳线插拨一次，因为走停机检修手续流程太长，想利用oracle的心跳可延迟时间内插拨完成，所以想搞清楚心跳的延时时间。

遇到这个问题，首先，我们要知道ORACLE是由OCSSD守护进程在负责心跳机制的，并且OCSSD维护的是网络和磁盘两种心跳同步机制。以及，不能对上述问题一概而论，因为在不同OS平台，不同cluster版本，采用的不同集群软件一环境下，默认的最大延时时间是不同的。并且，该时间是可以调整的，并不能确保他要操作的系统使用的就是默认值，在cluster上决定节点分离的参数主要有 misscount（简称MC，定义网络心跳的最大缺失时间）、disktimeout（简称DTO，定义磁盘心跳的最大缺失时间）、reboottime（重启时间）三个参数所决定，三个参数的单位均为秒，并且具有关联性，期中参数值的修改会关联影响整体的节点分离重启时间。

对于因为网络心跳和磁盘心跳超时最经典的日志信息如下：

网络心跳：

CRS-1612:node XXdb1 (1) at 50% heartbeat fatal, eviction in 29.118 seconds

--上面这条信息，看到缺失约30秒时，超时的比例是50%，就可以猜出，在这台机器上，网络心跳的最大缺失时间应该是60秒，该机器是linux平台oracle10gR2.

磁盘心跳：

[cssd(7361)]CRS-1613:No I/O has completed after 90% of the maximum interval. Voting file /dev/asm-ocr will be considered not functional in 19270 milliseconds

对于网络心跳与磁盘心跳最大缺失时间的权威说明，在metalink上，有一篇文档 ID 294430.1 的文章，详细的说出了上面的问题。