在一次升级seata的过程中发下此问题记录一下。
环境:seata使用nacos做配置中心和注册中心,seata服务端从1.5.2升级至1.6.1。使用docker部署
升级方案:部署1.6.1seata节点加入到当前seata集群中;在nacos中将集群中1.5.2的节点seata节点下线;等待seata的应用客户端切换到1.6.1后,停止seata1.5.2;
遇到问题:下线完1.5.2节点时发现,发现nacos注册中心界面上显示“上线”按钮,说明已下线。然后刷线nacos发现刚下线的1.5.2节点又变成了在线状态,显示“下线按钮”。懵了,啥情况。
排查问题1:是不是seata版本的问题,nacos中操作下线,seata里面有自主上线了?本地启动了nacos单机版,注册上seata1.5.2和1.6.1节点,无论下线哪个节点后刷新nacos后对应节点都是下线状态。看起来不是这个问题。
排查问题2:既然不是seata版本问题,那就考虑是不是nacos版本问题,生产环境用的nacos2.1.1,我用的2.1.0。换成2.1.1重试排查问题1,依然没有问题。
排查问题3:线上用了nacos集群,本地也整一个集群试试。在搭建本地nacos集群时遇到个问题,nacos官网 说使用内置数据源无需任何配置。结果整了半天 nacos一直 “INFO Nacos is starting...”,改成使用数据库。“Nacos started successfully in cluster mode. use external storage”。环境搞好了,再试一下,还是没有问题。[○・`Д´・ ○]
等下,回到问题本身,刷新一下nacos界面显示节点在线,再刷新是下线,挺有规律的。
看看官网的部署图:
我们也是这么部署的,刚才规律像极了 是某个nacos节点返回数据不整确。赶紧找运维同学验证一下,发现其中一个nacos节点返回数据是seata节点全部在线
搞了半天问题在这里,找到问题了 就去解决吧。
稍微研究了一下,nacos中服务注册信息没有存储在数据库,那应该就是在nacos目录下的data目录了,看了一下里面文件有的是二进制,打不开。删掉试试,最初部署这些时data目录是空的。删除完重新启动nacos,发现好了。再试是下线操作,刷新多次一切正常。再到具体nacos节点上看看,seata服务状态完全一致。
总结,出现这个问题应该是nacos各个节点注册服务状态同步问题导致。
至于nacos的data目录具体存储了哪些数据,以及nacos集群之间注册服务状态是如何同步的,以后有时间再研究。