分享一个大神的人工智能教程。零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到人工智能的队伍中来!点击浏览教程
1、快速定位故障
在复杂的系统架构中,尤其是微服务架构中,一旦发生故障可能会出现“多米诺骨牌效应”,系统会由一个故障点波及到其他关联的模块。那么一旦定位不及时,不仅仅会扩大故障,还可能会由于多个模块都在报错、报警,给故障源的定位带来困难。因此我们要有一套快速的故障定位方法。我比较推荐的就是 全链条投入排查。即一旦发现线上故障,当前系统以及相关系统所对应的开发、运维、测试等方向,各抽调对口人,全都叫到线上去处理问题,各自排查各自模块/服务,如果排查自己负责的范围没有问题就可以在旁边待命,以备在需要的时候进行配合。重点就是从一开始就一起介入。不要小看这一点,看似平淡无奇,但实际场景下,要能保证有序的这么去做到,还是挺难的,亚马逊都是通过一套制度和任务分配系统来保障这种全链路排查方案得以持久实施的。其实这么做的目的就是在跟故障抢时间。我们平时大多数情况下是怎么做的呢,收到一个线上功能的错误报告,然后对应功能的前端同学开始排查,排查了半天,发