欢迎访问陈同学博客原文
Rancher 1.6.14
OS:Ubuntu 16.04
本文记录Rancher整个环境因一台主机网络问题导致环境中所有主机网络瘫痪,无法跨主机通讯问题。
发现问题
收到故障预警邮件,网站无法访问。
为了便于介绍,先画个请求处理的简图:
请求由nginx做第一层转发,haproxy是Rancher提供的标准Loader Balance组件,可以将请求根据规则代理到特定的应用,如果应用多实例,同时会做负载均衡。
排查问题
ping 域名,能通 => 说明网络正常
访问网站地址,nginx日志中请求状态为
502
或504
=> 说明请求到达了nginx,后续网关出现了问题
注:502 Bad Gateway; 504 Gateway Time-out
- 查看Rancher中所有主机,发现所有Rancher网络容器 healthcheck 组件处于 initializing 状态,且不同主机之