最近发生的一个事件,系统某个组件突然错误率、响应时间上升,通过分析该组件A所依赖的组件B是部署在K8s上的,分析过程如下:
1)A组件所发的请求是否在“全链路”过程中全部转发, 发起方(客户端)、网络是否丢包或阻塞、clb是否有异常 、k8s的ingress是否转发。
2)结果经过排查 k8s的ingress出现异常,没有及时转发。
事件二、宿主机能够解析域名,但pod(容器)不行,这可能是coreDNS的问题。
事件三、pod访问外部网络,打通的不只是所在宿主机的网络及安全组,理应把整个集群所有的宿主机的IP都需要放行。