发布Mortem:Kubernetes节点OOM

生产问题从来都不是一件好事。 它们似乎总是在您不上班时发生,原因似乎总是很愚蠢。 我们最近在生产Kubernetes集群中遇到了节点内存不足的问题,但是该节点很快恢复了,没有任何明显的中断。 在这个故事中,我们将讨论集群中发生的特定问题,产生的影响以及将来如何避免该问题。 首先,有一点背景。 我为Blue Matador工作,这是AWS和Kubernetes的监视警报自动化服务。 我们在带有K...
摘要由CSDN通过智能技术生成

生产问题从来都不是一件好事。 它们似乎总是在您不上班时发生,原因似乎总是很愚蠢。 我们最近在生产Kubernetes集群中遇到了节点内存不足的问题,但是该节点很快恢复了,没有任何明显的中断。 在这个故事中,我们将讨论集群中发生的特定问题,产生的影响以及将来如何避免该问题。

首先,有一点背景。 我为Blue Matador工作,这是AWS和Kubernetes的监视警报自动化服务。 我们在带有Kubernetes的AWS中运行的自己的系统上使用我们的产品。 这个故事是由我们一位才华横溢的软件工程师创建的,用他自己的话说。

第一次发生

下午5:12-2019年6月15日星期六

Blue Matador发出警报,说我们生产集群中的Kubernetes节点之一发生了SystemOOM事件。

下午5:16

Blue Matador创建一个警告,指出发生SystemOOM事件的节点的EBS突发平衡在根卷上较低。 虽然突发突发事件是在SystemOOM事件之后发生的,但实际的CloudWatch数据显示突发均衡处于下午5:02的最低点。 延迟的原因是EBS指标始终落后10-15分钟,因此我们的系统无法实时捕获所有内容。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值