近期在公司机器上部署了三个节点的nacos集群服务用于几个小型微服务的注册配置中心,并使用了Nginx简单代理了
一下(原来是单节点,但是有一天机器闪存故障停机修理了......),随即简单研究了下集群部署分布式不属于一下稍微提高可用性。
部署完后能够正常使用,但是发现一个问题,刷新Nacos集群节点列表,总会有一个或者两个节点时不时处于DOWNh或者SUSPICIOUS状态,于是开始了漫长的查找问题过程(翻遍了nacos配置,nginx配置等等)。
集群能够正常使用,就是各服务应用总会爆出来一堆链接nacos服务异常,估计是发现不行马上又重定向到别的节点去了吧..
最终发现是某个节点的服务器的hostname不对,设置的是127.0.0.1,而我在nacos集群配置的是对应服务器的IP地
址,由此导致了集群节点间心跳检测失败,三次之后,节点自动下线或被置于不信任状态...
所以解决办法也很简单:设置一下对应的服务器的hostname即可
hostname 10.x.x.x
hostname -i // 查看一下是否是服务器对应的ip地址