发布Mortem：Kubernetes节点OOM

最新推荐文章于 2024-06-21 18:03:45 发布

dfsgwe1231

最新推荐文章于 2024-06-21 18:03:45 发布

阅读量717

点赞数

文章标签： ruby 运维操作系统

生产问题从来都不是一件好事。它们似乎总是在您不上班时发生，原因似乎总是很愚蠢。我们最近在生产Kubernetes集群中遇到了节点内存不足的问题，但是该节点很快恢复了，没有任何明显的中断。在这个故事中，我们将讨论集群中发生的特定问题，产生的影响以及将来如何避免该问题。首先，有一点背景。我为Blue Matador工作，这是AWS和Kubernetes的监视警报自动化服务。我们在带有K...

摘要由CSDN通过智能技术生成

生产问题从来都不是一件好事。它们似乎总是在您不上班时发生，原因似乎总是很愚蠢。我们最近在生产Kubernetes集群中遇到了节点内存不足的问题，但是该节点很快恢复了，没有任何明显的中断。在这个故事中，我们将讨论集群中发生的特定问题，产生的影响以及将来如何避免该问题。

首先，有一点背景。我为Blue Matador工作，这是AWS和Kubernetes的监视警报自动化服务。我们在带有Kubernetes的AWS中运行的自己的系统上使用我们的产品。这个故事是由我们一位才华横溢的软件工程师创建的，用他自己的话说。

第一次发生

下午5:12-2019年6月15日星期六

Blue Matador发出警报，说我们生产集群中的Kubernetes节点之一发生了SystemOOM事件。

下午5:16

Blue Matador创建一个警告，指出发生SystemOOM事件的节点的EBS突发平衡在根卷上较低。虽然突发突发事件是在SystemOOM事件之后发生的，但实际的CloudWatch数据显示突发均衡处于下午5:02的最低点。延迟的原因是EBS指标始终落后10-15分钟，因此我们的系统无法实时捕获所有内容。

最低0.47元/天解锁文章

dfsgwe1231

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
发布Mortem：Kubernetes节点OOM

生产问题从来都不是一件好事。它们似乎总是在您不上班时发生，原因似乎总是很愚蠢。我们最近在生产Kubernetes集群中遇到了节点内存不足的问题，但是该节点很快恢复了，没有任何明显的中断。在这个故事中，我们将讨论集群中发生的特定问题，产生的影响以及将来如何避免该问题。首先，有一点背景。我为Blue Matador工作，这是AWS和Kubernetes的监视警报自动化服务。我们在带有K...
复制链接

扫一扫