k8s集群5个故障案例分析

最新推荐文章于 2025-03-10 10:57:23 发布

old_GGB

最新推荐文章于 2025-03-10 10:57:23 发布

阅读量1.6k

点赞数 13

文章标签： kubernetes 容器云原生

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GGB_GG/article/details/136188392

版权

本文详细讲述了Kubernetes中常见的故障案例，如CPU限制导致的高延迟、应用程序日志丢失、IP上限阻碍自动扩展和负载均衡配置错误。还讨论了加密货币挖矿对K8s环境的影响以及如何通过改进监控和安全措施来提升集群稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 简介

最近看到了一份收集Kubernetes故障案例的资料，资料由ZalandoTech的高级首席工程师Henning Jacobs加以维护。这个由社区驱动的项目全面介绍了Kubernetes反模式以及为何导致Kubernetes运行错误的原因。

k8s.af上的案例由工程师和实施者编写，描述了许多糟糕的经历：比如导致高延迟的CPU限制、阻止自动扩展的IP上限、应用程序日志丢失、pod被终止、502 错误、部署缓慢和生产环境故障等。

愿通过分析这些失败案例，大家可以学会如何更好地配置和改进K8s环境。

2 CPU限制导致高延迟

设定CPU限制是把双刃剑。您不想浪费计算资源，然而设定人为限制又可能导致容器耗尽所有可用的CPU。这可能会导致一连串连锁反应事件，从而导致性能停滞、其他组件停运。

为了遏制容器，Kubernetes使用完全公平的调度程序配额（CFS Quota），以防止超出CPU限制。遗憾的是，Kubernetes中过于严格的遏制会导致性能问题。

Buffer的故事就是一个例子。在人为遏制导致性能不佳后，基础架构团队最终决定为面向用户的实例取消CPU限制和遏制，针对每个节点分配合适的CPU，留出>20%的余量。这么一来，该团队将所有容器的容器延迟至少缩短了一半。至于主登录页面，最终结果是快了22倍。

Buffer基础架构工程师Eric Khun写道：“我们在改用微服务架构的过程中不断反复试验。即使在运行k8s几年后，我们仍在学习其奥秘。”

应谨慎对待取消CPU限制。相反，Khun建议“升级内核版本，而不是消

最低0.47元/天解锁文章

博客等级

码龄2年

67
原创

915
点赞

941
收藏

752
粉丝

关注

私信

热门文章

最新评论

ELK Stack 日志平台搭建
抽搐人偶师: 虚拟机部署filebeat的时候遇到了报错，报错给GPT分析了一下：从日志中可以看到，Filebeat 版本 7.7.1 在尝试启动并连接 Elasticsearch 时遇到了一些问题。最后的错误信息 runtime/cgo: pthread_create failed: Operation not permitted 和 SIGABRT: abort 表明程序由于线程创建失败而崩溃。请问有什么解决办法吗？确实在elasticsearch里面也没有看到filebeat的索引，是因为虚拟机磁盘太小吗？内存16G，磁盘30G，8核
修改 Docker 的默认存储路径
CSDN-Ada助手: 不知道云原生入门技能树是否可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
docker安装elasticsearch8.*完整详细教程
old_GGB: 看下配置的路径对不对
docker安装elasticsearch8.*完整详细教程
一二-: 安装完了但是没有这个包路径

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。