啊！你的服务又挂了？

神策数据

于 2021-02-25 16:00:15 发布

阅读量767

点赞数

文章标签： java 编程语言人工智能分布式大数据

本文链接：https://blog.csdn.net/sensorsdata/article/details/114109264

版权

译者前言

Troubleshooting 即故障排查检修，这绝对不是一项简单的任务，不同技术体系之间天差地别，这个问题可有统一答案？因为具体的技术终将过时，所以本文不谈任何具体的技术细节，而是针对 troubleshooting 提出十条方法论。

本文原作者：Steve Mushero

原文链接：

https://medium.com/faun/shit-breaks-dao-of-troubleshooting-6cc1b3869ce0

1. 故障无法避免

啊，你的服务又挂了，很不幸。

更不幸的是，因为负载高、业务复杂，它挂掉是常事。

它以一种不能被 “自动扩容”、“加容器”、“重启” 等手段轻易 “解决” 的方式挂掉，花里胡哨的调度系统此时也起不到作用。当然我不是说这些方法没用，毕竟它们各有各的场景。

有时候，你面对一个故障，5 分钟就能定位原因，但作为 “老兵” 的你一定懂得这背后需要多少经验积累和努力，常言道 “功夫都在戏外”。

如果你恰好用了微服务（micro-service）、无服务器（server-less）、无限可分割（infinitely-divisible）、无处不在的松散连接组件（loosely-connected pieces and parts）之类的新玩意，修复起来就更难了。

何解？具体技术早晚会过时，而方法论则具备长久生命力。唯有 “道”（指方法论）才是应对复杂系统的指路明灯。

2. 对一切建模

要能说出每个部件在模型中的位置，它们如何交互、如何配置。条件允许的话，连它的行为也要弄清楚。

拿到并看懂逻辑架构图，有必要的话，物理架构图、网络架构图也一样。搞清楚不同尺度上的分层、分组。

3. 可知则尽知

尽你所能，弄清楚所有的配置和状态。

这确实很难，看懂仓库里的代码、配置文件、.env、基础结构即代码（infrastructure-as-code systems）只是毛毛雨，更不要说运行时动态的部分。但不管你喜不喜欢，真正运行着的系统就是一切真相的源头。

4. 谁动了环境？

最近有什么被动过？由谁？何时？操作对象是什么？效果是什么？谁登过服务器？谁 push 过代码？改了什么配置？诸如此类。

然后，哪些行为发生了变化。例如谁的延迟发生了变化，相关部分的动力学^[1]变化，错误率是否有变化，哪些资源负载或可用性发生了变化？哪些变化重要呢？

5. 请专家

直接或间接地应用知识和经验，了解事物之间的关系、依赖，尤其是动力学及与之关联的失效模式^[2]。动用一切资源去找最懂行的人，问朋友同事、在论坛社区发帖、在社交网络提问、在 IRC 或邮件列表提问……如果专家是“鬼魂”，那就“作法招魂”^[3]。到现场指导是最好的、实在不行就远程。条件允许的话，使用可用的专家系统或规则引擎，这些都是被编码过的专业知识。