今天下午在公司,收到zabbix的告警邮件,发现有一批机器同时告警,说机器ping不通。而这批机器都是在通过wmare安装的虚拟机,当时就感觉,可能是这台虚拟化的物理机有问题,马上查找该机器的IP地址,发现果然ping不通。机器已经挂了。只有重启。机器重启后。

在连接vcenter,启动该物理机上所有的虚拟机。 找到其中影响业务的192.168.45.150,192.168.45.146这两台机器。开机后,检查 防火墙,selinux 是否关闭,检查系统时间,发现系统时间不同步,通过

ntpdate ,clock -w 命令同步时间。之后启动ambari-agent,然后就登录ambari-server的管理地址,启动之前受影响的机器上的服务。 然后再启动对应192.168.45.146机器上的docker 服务。

通过docker ps -a 查看所有的容器id。

docker start id  来启动对应的容器。