故障现象:
集群在启动后,查看集群节点状态信息,如下所示:standby节点状态为 “inactive” 。
问题分析:
对于repmgr集群中,节点为 “inactive” 状态时,需要从以下几个方面进行检查分析:
-
查看数据库进程启动是否正常(主备库的状态)
-
查看数据库sys_log日志,是否有复制槽(slot)等故障信息。
-
查看数据库sys_log日志,是否有timeline等故障信息。
通过对standby节点以上信息检查,没有发现错误。
问题解决:
在备库执行 “repmgr standby register --force” 后,查看集群节点状态,standby节点状态恢复正常。
问题总结:
对于repmgr集群 “node record is inactive” 问题,一般是因为standby节点数据库服务或流复制出现问题,节点注册集群失败,导致集群状态显示为 “inactive” ,根据错误日志分析,一般处理的思路可以按照以下步骤:
-
执行‘repmgr standby register –force’,问题解决,无需执行下一步。
-
执行‘repmgr node rejoin’,问题解决,无需执行下一步。
-
执行‘repmgr standby clone’。