linux-HA 节点 故障: node xxx UNCLEAN (offline) 一例

上周在测试HA 的时候,需要临时增加硬盘空间,请硬件同事重新规划了虚拟机的配置。

测试过程中出现了一个奇怪的问题

两边node 启动了HA 系统后,相互认为对方是损坏的。

crm_mon 命令显示  

node95   UNCLEAN  (offline)
node96   online
另一个节点  node95 则相反,认为node96 offline unclean

没有办法解决,即便是重装了HA 系统也是如此。从现有的运行正常的ha系统,copy整个配置文件过来也是如此。


最后放弃,今天将问题提交到网络组,看看是不是两边的通信有问题,tcpdump 观察两边的5405 端口是有通信的。

但是系统还是有问题,整郁闷的时候,两边自动好了,认为对方是正常的节点了。


莫名其妙。
看了下时间,两边的时间都是utc 时间, 于是手工date 修改了主机时间到现在时间。

修改完了,手工重启下node95 ,看看ha的反应,奇怪的事情又发生了。两边又相互不认识了。

整郁闷的时候, 突然两边node又都认识了。奇怪的事情发生了。两个vm的时间都又回到了utc时间。

这回想明白是怎么回事了。
初步确定问题原因了:

应该是重新加载硬盘以后,调整了虚拟机的物理机器,导致虚拟机的时间会同步物理机的时间,物理机的 时间是用utc时间的,我这边改了时间后,重启一台,导致两个节点的时间序列不一致了,集群系统认为出错了,不能在两台机器之间清理状态,两台机器都认为 对方坏掉了,发生了脑裂了。各人自己维护自己的系统状态了。碰巧两台机器在损坏的过程中发生了一次时间同步,两台机器都回到了utc 时间,两边的时间序列应该在同一个时间上了。两边的PE(策论引擎) 认为系统node 对等了,然后集群的状态同步恢复到了正常状态。


HA 的节点间应该有严格的时间同步机制!!。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/133735/viewspace-743067/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/133735/viewspace-743067/

[23-05-29 20:39:13.243] {main} <proxy-cache> requires Resin Professional. Please see http://www.caucho.com for Resin Professional information and licensing. [23-05-29 20:39:13.400] {main} [23-05-29 20:39:13.400] {main} Resin-4.0.58 (built Fri, 24 Aug 2018 01:23:14 PDT) [23-05-29 20:39:13.401] {main} [23-05-29 20:39:13.402] {main} Windows 10 10.0 amd64 [23-05-29 20:39:13.402] {main} Java(TM) SE Runtime Environment 1.8.0_191-b12, GBK, zh [23-05-29 20:39:13.402] {main} Java HotSpot(TM) 64-Bit Server VM 25.191-b12, 64, mixed mode, Oracle Corporation [23-05-29 20:39:13.402] {main} [23-05-29 20:39:13.403] {main} user.name = WR182 [23-05-29 20:39:13.541] {main} [23-05-29 20:39:13.546] {main} server listening to 127.0.0.1:6800 [23-05-29 20:39:13.549] {main} [23-05-29 20:39:13.766] {main} Table[mnode:2,D:\WEAVER\Resin\resin-data\app-0\distcache\mnode.db] validating indexes due to unclean shutdown. [23-05-29 20:39:13.816] {main} Table[data:3,D:\WEAVER\Resin\resin-data\app-0\distcache\data.db] validating indexes due to unclean shutdown. [23-05-29 20:39:13.942] {main} [23-05-29 20:39:13.943] {main} resin.home = D:\WEAVER\Resin [23-05-29 20:39:13.943] {main} resin.root = D:\WEAVER\Resin [23-05-29 20:39:13.943] {main} resin.conf = d:\WEAVER\Resin\conf\resin.xml [23-05-29 20:39:13.943] {main} [23-05-29 20:39:13.943] {main} server = 127.0.0.1:6800 (app:app-0) [23-05-29 20:39:13.943] {main} stage = production [23-05-29 20:41:38.003] {main} Found library 'resin_os' as 'd:\WEAVER\Resin\win64\resin_os.dll', but the load failed. The JVM exception was: java.lang.UnsatisfiedLinkError: no resin_os in java.library.path [23-05-29 20:42:40.782] {resin-60} WebApp[production/webapp/default/lib] active [23-05-29 20:42:40.782] {main} Host[production/host/default] active [23-05-29 20:42:40.782] {main} ServletService[id=app-0,cluster=app] active [23-05-29 20:42:40.782] {main} [23-05-29 20:42:40.782] {main} http listening to *:8080 [23-05-29 20:42:40.782] {main} https listening to *:8444 [23-05-29 20:42:40.796] {main} [23-05-29 20:42:40.796] {main} Resin[id=app-0] started in 210426ms Connected to server [23-05-29 20:43:29.233] {resin-55} WebApp[production/webapp/default/ROOT] active
05-30
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值