生产问题从来都不是一件好事。 它们似乎总是在您不上班时发生,原因似乎总是很愚蠢。 我们最近在生产Kubernetes集群中遇到了节点内存不足的问题,但是该节点很快恢复了,没有任何明显的中断。 在这个故事中,我们将讨论集群中发生的特定问题,产生的影响以及将来如何避免该问题。
首先,有一点背景。 我为Blue Matador工作,这是AWS和Kubernetes的监视警报自动化服务。 我们在带有Kubernetes的AWS中运行的自己的系统上使用我们的产品。 这个故事是由我们一位才华横溢的软件工程师创建的,用他自己的话说。
第一次发生
下午5:12-2019年6月15日星期六
Blue Matador发出警报,说我们生产集群中的Kubernetes节点之一发生了SystemOOM事件。
下午5:16
Blue Matador创建一个警告,指出发生SystemOOM事件的节点的EBS突发平衡在根卷上较低。 虽然突发突发事件是在SystemOOM事件之后发生的,但实际的CloudWatch数据显示突发均衡处于下午5:02的最低点。 延迟的原因是EBS指标始终落后10-15分钟,因此我们的系统无法实时捕获所有内容。