linux节点问题,Linux-HA 节点 故障: node xxx UNCLEAN (offline) 一例

在测试HA 的时候,需要临时增加硬盘空间,请硬件同事重新规划了虚拟机的配置。

测试过程中出现了一个奇怪的问题

两边node 启动了HA 系统后,相互认为对方是损坏的。

crm_mon 命令显示

node95  UNCLEAN  (offline)

node96  online

另一个节点  node95 则相反,认为node96 offline unclean

没有办法解决,即便是重装了HA 系统也是如此。从现有的运行正常的ha系统,copy整个配置文件过来也是如此。

最后放弃,今天将问题提交到网络组,看看是不是两边的通信有问题,tcpdump 观察两边的5405 端口是有通信的。

但是系统还是有问题,整郁闷的时候,两边自动好了,认为对方是正常的节点了。

莫名其妙。

看了下时间,两边的时间都是utc 时间, 于是手工date 修改了主机时间到现在时间。

修改完了,手工重启下node95 ,看看ha的反应,奇怪的事情又发生了。两边又相互不认识了。

整郁闷的时候, 突然两边node又都认识了。奇怪的事情发生了。两个vm的时间都又回到了utc时间。

这回想明白是怎么回事了。

初步确定问题原因了:

应该是重新加载硬盘以后,调整了虚拟机的物理机器,导致虚拟机的时间会同步物理机的时间,物理机的时间是用utc时间的,我这边改了时间后,重启一台,导致两个节点的时间序列不一致了,集群系统认为出错了,不能在两台机器之间清理状态,两台机器都认为对方坏掉了,发生了脑裂了。各人自己维护自己的系统状态了。碰巧两台机器在损坏的过程中发生了一次时间同步,两台机器都回到了utc 时间,两边的时间序列应该在同一个时间上了。两边的PE(策论引擎) 认为系统node 对等了,然后集群的状态同步恢复到了正常状态。

HA 的节点间应该有严格的时间同步机制!0b1331709591d260c1c78e86d0c51c18.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
[23-05-29 20:39:13.243] {main} <proxy-cache> requires Resin Professional. Please see http://www.caucho.com for Resin Professional information and licensing. [23-05-29 20:39:13.400] {main} [23-05-29 20:39:13.400] {main} Resin-4.0.58 (built Fri, 24 Aug 2018 01:23:14 PDT) [23-05-29 20:39:13.401] {main} [23-05-29 20:39:13.402] {main} Windows 10 10.0 amd64 [23-05-29 20:39:13.402] {main} Java(TM) SE Runtime Environment 1.8.0_191-b12, GBK, zh [23-05-29 20:39:13.402] {main} Java HotSpot(TM) 64-Bit Server VM 25.191-b12, 64, mixed mode, Oracle Corporation [23-05-29 20:39:13.402] {main} [23-05-29 20:39:13.403] {main} user.name = WR182 [23-05-29 20:39:13.541] {main} [23-05-29 20:39:13.546] {main} server listening to 127.0.0.1:6800 [23-05-29 20:39:13.549] {main} [23-05-29 20:39:13.766] {main} Table[mnode:2,D:\WEAVER\Resin\resin-data\app-0\distcache\mnode.db] validating indexes due to unclean shutdown. [23-05-29 20:39:13.816] {main} Table[data:3,D:\WEAVER\Resin\resin-data\app-0\distcache\data.db] validating indexes due to unclean shutdown. [23-05-29 20:39:13.942] {main} [23-05-29 20:39:13.943] {main} resin.home = D:\WEAVER\Resin [23-05-29 20:39:13.943] {main} resin.root = D:\WEAVER\Resin [23-05-29 20:39:13.943] {main} resin.conf = d:\WEAVER\Resin\conf\resin.xml [23-05-29 20:39:13.943] {main} [23-05-29 20:39:13.943] {main} server = 127.0.0.1:6800 (app:app-0) [23-05-29 20:39:13.943] {main} stage = production [23-05-29 20:41:38.003] {main} Found library 'resin_os' as 'd:\WEAVER\Resin\win64\resin_os.dll', but the load failed. The JVM exception was: java.lang.UnsatisfiedLinkError: no resin_os in java.library.path [23-05-29 20:42:40.782] {resin-60} WebApp[production/webapp/default/lib] active [23-05-29 20:42:40.782] {main} Host[production/host/default] active [23-05-29 20:42:40.782] {main} ServletService[id=app-0,cluster=app] active [23-05-29 20:42:40.782] {main} [23-05-29 20:42:40.782] {main} http listening to *:8080 [23-05-29 20:42:40.782] {main} https listening to *:8444 [23-05-29 20:42:40.796] {main} [23-05-29 20:42:40.796] {main} Resin[id=app-0] started in 210426ms Connected to server [23-05-29 20:43:29.233] {resin-55} WebApp[production/webapp/default/ROOT] active
05-30

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值