故障的坑,你踩了多少遍

本文分析了故障发生的多种原因,包括代码合并错误、测试覆盖不足、checklist缺失、性能问题和第三方故障。强调了故障带来的启示,如提高思维严谨度、加强代码审查和测试用例覆盖。同时,提出了完善的上线规范和故障反思,包括回滚策略、第三方对接成熟度和对故障的预防、发现、告警及降级措施的重视。
摘要由CSDN通过智能技术生成

一、故障原因

根据故障产生的直接原因分类:
  • 代码合并。前端/后端开发合并代码导致最后的故障,例如代码误删,代码被覆盖等。 此类故障如果代码合并没有严格的检查流程,加上影响的是原有的边缘功能的话,是极难发现的。
  • 测试未覆盖。测试用例遗漏相关功能点的测试。如果被“改坏”点属于主干功能、业务测试范畴,还是比较容易覆盖的。但如果被“改坏”点恰恰属于原有的边缘功能,那成为“漏网之鱼”的可能性就大大提高了。
  • checklist缺失。上线步骤、回滚步骤、机器重启、服务下线、机器下线、第三方联调等缺少相关checklist时,由于涉及内容往往比较复杂,上述任何一个步骤有遗漏,都可能会导致线上故障。但值得庆幸的是,如果指定相关的checklist,并让团队成员review,故障还是会大大避免的。
  • 性能问题。如内存OOM、数据库慢查询SQL、消息队列阻塞等问题,往往在测试阶段,甚至上线后很长一段时间都是正常的。此类问题是最为头疼的,不仅难以上线前发现,而且造成的影响面非常大,常常服务直接down掉了。
  • 第三方问题。第三方不稳定/故障导致的故障。此类问题属于“受害方”,虽然不能干涉第三方问题的发生,但在对接第三方时,应该有个基本原则:及时对方down掉࿰
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

多则惑少则明

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值