今天遇到一个集群重启后,gcware正常,gcluster和gnode都显示CLOSE状态,经过排查,是因为集群依赖的操作系统用户gbase被意外重建了,导致安装目录的属主不正确,没有权限访问导致。
错误现象
gcware正常,gcluster和gnode都显示CLOSE状态
gcware正常,gcluster和gnode都显示CLOSE状态
排查过程
重点是gnode服务是不依赖其它服务的,而gcluster依赖gcware。因为gcware部署在根目录下,而gcluster,gnode目录一般都是默认都是单独挂载一块大容量磁盘的,所有先怀疑是文件系统没有挂载,导致服务找不到可执行文件。
检查挂载情况
df -h检查,发现挂载正常,/opt/gbase存在。既然磁盘挂载正常,那检查一下服务的启动日志system.log看什么报错信息。