文章目录
物理机nova状态为down的处理思路
说明
在控制节点上查看所有物理机运行状态,如果有某台为down,先别急着去重启物理机,而是先排除是不是服务down了,如下图,就是虽然显示已经down了,但还能ssh过去。如果服务有问题,重启服务即可。
故障排除思路
1、先去web界面查看rabbitMq服务是不是正常的
如果rabbitmq出问题了,去该控制节点查看服务:systemctl status rabbitmq-server.service
(我这是正常的,所以是active,如果在web界面看到是故障的,这儿状态就并非active)
然后重启rabbitmq服务:systemctl restart rebbitmq-server
(重启报错,看日志报错,可能是相关服务也出问题了,所以导致rabbitmq服务不能正常重启)
再次查看服务,状态是active即可:systemctl status rebbitmq-server
处理完毕后再去rabbitmq的web界面看,该控制节点状态已经正常。
2、查看状态为down的nova服务是否为active,不为active即服务有问题
如文章第一个图中 computer07状态为down,所我ssh到computer07查看nova服务:systemctl status openstack-nova-compute.service
(因为已经处理好了,所以现在看到是active)
(如果在控制节点服务为down,但这状态依然是active,依然直接重启)
重启nova服务(要ssh到状态为down的服务器上重启该服务):systemctl restart openstack-nova-compute.service
再次查看状态是否是active,为active即正常:systemctl status openstack-nova-compute.service
3、不是服务问题(不能ssh过去),则直接去管理口重启物理机即可。
rabbitmq掉了nova会down的原因
先来看看rabbitmq掉了nova会down的图(脚本跑的结果)
重启rabbitmq
再次查看,恢复正常
原因:比如上面 看到的是 computer07掉了,那么就登陆到computer07的控制台。 cd /etc/nova
,cat nova.conf
找到oslo_messaging_rabbit
,下面第一行rabbit_hosts
,后面有ip,正常情况如下
正常情况这会有多个ip,如果掉了其中一个,不会影响。但如果只配置了一个rabbitmq节点ip,如果配置的那个rabbitmq服务掉了,那么该台服务器的nova状态也就是为 down状态了。