Chaos Mesh实战：手把手教你用“混沌魔法”暴打K8s集群

最新推荐文章于 2025-04-15 08:44:16 发布

码农技术栈

最新推荐文章于 2025-04-15 08:44:16 发布

阅读量985

点赞数 26

分类专栏：运维文章标签： kubernetes 容器云原生 spring boot spring cloud 微服务架构

本文链接：https://blog.csdn.net/qq_44378083/article/details/146542737

版权

运维专栏收录该内容

17 篇文章

订阅专栏

从网络延迟到Pod爆炸，这个开源工具让你的分布式系统真正“抗揍”

一、为什么你的系统需要“混沌工程”？

想象一下：你的Kubernetes集群运行着核心业务，突然某个节点宕机、网络延迟飙升、Pod莫名其妙消失…如果线上真发生这些故障，你的系统能扛住吗？

混沌工程（Chaos Engineering）就是通过主动注入故障，提前暴露系统脆弱点的“压力测试”。而Chaos Mesh（由PingCAP开源）是目前最火的云原生混沌测试工具，它能模拟Pod崩溃、网络延迟、文件IO故障等20+种异常场景。

“如果你没在生产环境跑过混沌实验，那你的系统就是在裸奔。” —— Netflix混沌工程团队

二、Chaos Mesh能玩哪些“骚操作”？

Chaos Mesh支持三大类故障注入，覆盖从底层到应用层的全栈破坏力：

1. 基础资源故障（让服务器“发疯”）

Pod爆炸：随机杀死Pod，测试K8s自愈能力
网络延迟：给特定服务增加100ms延迟，模拟跨机房通信
磁盘IO故障：让数据库写入慢如蜗牛
CPU满载：模拟挖矿病毒攻击

2. 平台级故障（云厂商的噩梦）

AWS节点重启：模拟EC2实例意外终止
DNS污染：让域名解析返回错误IP

3. 应用层故障（精准打击）

JVM方法延迟：让支付接口的checkBalance()方法卡顿5秒
MySQL丢包：制造数据库“抖动”

三、5分钟快速上手：让集群体验“社会毒打”

步骤1：安装Chaos Mesh（Helm一键部署）

# 添加仓库
helm repo add chaos-mesh https://charts.chaos-mesh.org
# 安装（默认放到chaos-testing命名空间）
helm install chaos-mesh chaos-mesh/chaos-mesh -n=chaos-testing

验证安装：kubectl get pods -n chaos-testing 看到controller-manager和chaos-dashboard即成功。

步骤2：通过Dashboard搞破坏（可视化操作）

# 端口转发到本地
kubectl port-forward -n chaos-testing svc/chaos-dashboard 2333:2333

浏览器打开http://localhost:2333

步骤3：实战案例——模拟网络延迟

目标：给default命名空间下所有app=nginx的Pod注入100ms网络延迟

方法1：YAML文件（推荐）
创建network-delay.yaml：

apiVersion: chaos-mesh.org/v1alpha1
kind: NetworkChaos
metadata:
  name: network-delay-example
spec:
  action: delay
  mode: all  # 影响所有匹配的Pod
  selector:
    labelSelectors:
      "app": "nginx"
  delay:
    latency: "100ms"  # 延迟时间
  duration: "5m"      # 持续5分钟

执行：kubectl apply -f network-delay.yaml

方法2：Dashboard操作

点击“New Experiment” → 选择“Network Chaos”
填写延迟参数和目标Pod标签
点击“Submit”开炸！

验证效果：
进入Nginx Pod执行ping，你会看到响应时间稳定增加100ms：

64 bytes from 10.244.1.5: icmp_seq=1 ttl=64 time=100.3 ms
64 bytes from 10.244.1.5: icmp_seq=2 ttl=64 time=100.1 ms

四、高阶玩法：混沌实验场景编排

Chaos Mesh不仅能单点爆破，还能编排连环故障：

先杀Pod → 2. 等K8s自动恢复 → 3. 再注入网络延迟 → 4. 最后制造磁盘IO错误

通过Workflow YAML定义流程：

apiVersion: chaos-mesh.org/v1alpha1
kind: Workflow
metadata:
  name: chaos-demo
spec:
  entry: the-entry
  templates:
    - name: the-entry
      templateType: Serial
      children:
        - kill-pod
        - network-delay
    - name: kill-pod
      templateType: PodChaos
      duration: 1m
      podChaos:
        action: pod-kill
    - name: network-delay
      templateType: NetworkChaos
      duration: 2m
      networkChaos:
        latency: "200ms"

五、生产环境注意事项

爆炸半径控制：先用mode: one只影响一个Pod
监控告警联动：配合Prometheus观察系统指标
黄金信号监控：关注错误率、延迟、吞吐量变化
定时自动恢复：务必设置duration避免忘关实验
权限隔离：用RBAC限制团队只能破坏测试命名空间

六、为什么选择Chaos Mesh？

特性	Chaos Mesh	其他工具对比
云原生集成	深度适配K8s CRD	部分需额外适配
操作体验	Dashboard+CLI双模式	多数仅CLI
故障粒度	可精确到JVM方法级别	通常到进程级
安全防护	RBAC+Namespace隔离	部分无权限控制