一、引言
不少产品运行要求:集群化部署、分散服务、稳定性运行。硬件故障、网络异常、资源异常、其他依赖异常、配置异常等都会打破原有的平衡导致稳定性问题。稳定性被破坏的场景非常多,复杂的稳定性演进过程中又有很多场景出现,这样交织的变化对分布式系统测试,特别是稳定性测试带来非常大的挑战。
本文以笔者经历,梳理了一种稳定性测试方法。从测试、产品、质量、运营等多重角度挖掘出稳定性提升方式,从而达到稳定性量变式提升。
测试需要变被动为主动,参与到项目全过程中去,提前暴露及预防稳定性问题,才能更好体现真正的价值所在。
二、总体框架
以场景为基础/主干,以指标为目标驱动,通过梳理及细化影响因子,梳理合理逻辑处理方法,最终形成稳定性关注点,运用到评审、专项测试、预发布、生产观察等上,通过工具和测试方法让稳定性得以落地实施。
三、稳定性场景
梳理大的、完整的业务场景,作为基准,如**云提供虚拟机,其核心可能是创建/重建(创建入口多样性,创建方式多样性?)。
四、稳定性指标
- 来源:竞品、产品交付、运营分析、SLA等
- 常规指标:cpu,io,内存,磁盘,