生产环境混沌演练模板：实施报告

梦想歌

于 2025-02-05 21:14:53 发布

阅读量745

点赞数 20

分类专栏：平台工程文章标签：运维可用性测试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ranhongdejiedao/article/details/145461820

版权

平台工程专栏收录该内容

13 篇文章

订阅专栏

概述

背景介绍

根据《服务器高可用恢复演练方案》文档介绍，验证基于 CLB 负载均衡下部署多台 CVM 的高可用。

目标要求

通过混沌演练故障注入，验证 A 系统的 RPO 不超过 4 小时，RTO 不超过 12 小时。

实施人员

*　演练实施组：小D
*　业务验证组：小E、小F

测试对象

A 系统的 prd1 生产环境

操作时间

2023-06-25 15:00 ~ 18:00

记录

Linux内核故障恢复演练

故障模拟

在 prd1 服务器节点注入Linux内核故障。

控制台显示 “执行中”。

等待执行完成后，我们连接这台服务器的 ssh 会话自动退出，说明故障注入已生效。

过程记录

Linux 内核故障注入总共持续了 30 分钟，表现如下：
持续访问生产环境，出现短暂几秒的接口报错。在 CLB 探测 prd1 环境端口异常之后，访问生产环境的接口不再出现报错。

短信收到系统告警，提示 prd1 服务器异常。

关闭故障注入，重启 prd1 服务器后，ssh 登录 prd1 服务器成功，但发现应用进程已经停止，没有再次启动，需要手动重启。

结果验证

首次故障注入后，业务接口出现短暂的报错，CLB 在几秒内检测到目标 CVM 不可用，业务请求随后恢复正常，符合预期。
系统自动告警，恢复服务器，因内核故障导致应用进程无法启动，手动执行脚本启动进程，切回 CLB，业务请求正常，符合预期。

现场还原

控制台执行 Linux 内核故障注入结束后，重启服务器即可。

CPU利用率100%恢复演练

故障模拟

在 prd1 服务器节点注入CPU压力测试。

使用 ssh 登录服务器执行 Top 命令，查看产生了 4 个 stress-ng-cpu 进程（服务器的 CPU 规格为 4 核），CPU 的负载分别达到 5.90 5.47 3.28，说明故障注入已生效。

过程记录

CPU 故障注入总共持续了 10 分钟，系统仍然可以正常访问，原因是服务器只部署了 Nginx 进程，后端服务不在节点，而是部署在 K8s 集群。

结果验证

CPU 高负载对服务器 Nginx 进程的影响较低。

现场还原

使用 HTTP 发起 GET 查询请求，不会产生测试数据，不需要还原。
控制台执行完成后，stress-ng-cpu 驻留进程自动被清除，不会影响正常的应用访问。

内存利用率100%恢复演练

故障模拟

在 prd1 服务器节点注入内存压力测试。

使用 ssh 登录服务器执行 Top 命令，查看产生了 1 个 stress-ng-vm 进程（服务器的内存规格为 8 GB），内存持续增长，导致进程 CPU 达到 100%，说明故障注入已生效。

过程记录

系统响应延迟，接口返回超过 10 秒，从用户的层面来看，会认为系统卡顿。

结果验证

当内存使用率达到 100%，系统响应时间会变长，CLB 心跳探测异常，将该节点从 CLB 中摘除，后续业务请求正常，符合预期。

现场还原

使用 HTTP 发起 GET 查询请求，不会产生测试数据，不需要还原。
控制台执行完成后，stress-ng-vm 驻留进程自动被清除，不会影响正常的应用访问。

机器重启恢复演练

故障模拟

在 prd1 服务器节点注入内存压力测试。

过程记录

系统重启很快，从用户感官上没有出现接口报错。因 Nginx 进程未启动，导致 CLB 无法探测到该节点，后续业务请求会失败。CLB 显示后端服务端口异常，如下图。

启动 Nginx 进程后，CLB 节点恢复正常。

结果验证

机器节点重启后，对业务的请求影响较小，符合预期。

现场还原

使用 HTTP 发起 GET 查询请求，不会产生测试数据，不需要还原。

总结

博客等级

码龄14年

44
原创

549
点赞

413
收藏

445
粉丝

关注

私信

热门文章

分类专栏

最新评论

阿里巴巴 COLA 应用架构实践
CSDN-Ada助手: 恭喜作者完成第三篇博客，题为“阿里巴巴 COLA 应用架构实践”。你的持续创作令人钦佩！通过分享阿里巴巴 COLA 应用架构实践，你为读者提供了宝贵的见解和经验。希望你能继续坚持写作，并分享更多的实践案例和技术探索。如果可以的话，下一步的创作建议是多分享一些在实践过程中遇到的挑战和解决方案，这将进一步丰富你的博客内容，为读者带来更多的启发和帮助。感谢你的分享，期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
阿里巴巴分层应用架构实践
CSDN-Ada助手: 恭喜博主发布了关于阿里巴巴分层应用架构实践的新篇章！文章内容详实全面，对阿里巴巴的应用架构有了更深入的了解。希望博主能继续分享相关的实践经验，或许可以考虑结合具体案例进行分析，这样更能吸引读者的注意。期待博主的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
CAT 监控大升级：链路追踪 + 告警推送，生产问题秒级定位！
CSDN-Ada助手: 恭喜您发布了第5篇博客！看到您对CAT 链路跟踪和监控告警改造的深入探讨，真是受益匪浅。希望您能继续坚持创作，分享更多有价值的内容。我建议您可以考虑深入研究CAT 链路跟踪和监控告警改造的实际应用案例，让读者更加直观地了解这一技术的实际应用和价值。期待您的下一篇精彩文章！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

梦想歌 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。