RedHat集群配置节点反复重启问题
(2015-08-03 21:08:18)
标签:
linux
集群
在使用Dell 730 X86服务器,操作系统redhat
6.6安装RHCS的时候,出现HA集群在配置完成后出现两台机器反复重启的情况。即两个集群节点始终都只有一个状态能够是online状态。当A机是online状态的时候,如果这个时候去启动B机的cman和rgmanager的时候,即出现fence
error的情况,直接将A机踢出并进行重启。
#service cman start
#service rgmanager start
网上的文章初步看了下,基础的分析情况如下:
1、网络交换机,对于有些交换机型号(如CISCO)必须设定PORTFAST(可能是这么拼,我对交换机不熟悉)。而有些品牌的型号(如TPLINK)缺省就设定了PORTFAST。
2、fence_ilo的版本问题。我用RHCS 4.5,就出现了不断重启,下载了最新4.7的fence包,才解决的。
再详细说一下有关fence版本的问题,在4.5中,fence_ilo xxxx -o off能正常关机,但fence_ilo xxxx
-o on或者-o
restart报错,不能重新启动机器。假设A机正常工作,B机关着,那么A机的fenced服务会不断发fence信号(相当于
fence_ilo xxx -o restart,都是通过fence agent来发出的),让B机重启,但由于fence
不能在OFF的状态把B机启动