GP数据库集群,偶尔隔两天就会发生节点的切换,镜像实例变为主实例,主实例中断。检查主实例的日志发现出现一个错误后,镜像就启动了。
错误:receive close on connection: Success (cdbfilerepconnserver.c:334)
对这个错误分析了很长时间,为什么会偶尔有一次这样的问题出现。现在集群入库量很大,每个节点上的实例数也不少,就开始怀疑是不是在高负荷的情况下,节点间的通信超时,导致镜像误认为主实例已经异常中断。
修改参数
gp_fts_probe_timeout
Specifies the allowed timeoutfor the fault detection process (ftsprobe) to establish a connection to a segment beforedeclaring it down.
Default:10 sec
将这个参数值改大,60s,近期观察没有再出现这个问题了。