关于运维之故障复盘篇-Case Study

最新推荐文章于 2024-07-17 21:30:51 发布

weixin_30826761

最新推荐文章于 2024-07-17 21:30:51 发布

阅读量1k

点赞数

文章标签：运维数据库

原文链接：http://www.cnblogs.com/topicjie/p/11111805.html

版权

本文详细记录了一次运维中遇到的数据库宕机故障的复盘过程，包括故障描述、复盘时间线、原因分析及影响面。通过案例强调了中级及以上故障进行Case Study的重要性，提出将云主机分散在不同物理主机上以防止类似故障再次发生。

摘要由CSDN通过智能技术生成

关于故障的事后复盘，英文名 Case Study是非常有必要做的，当然是根据故障的级别，不可能做到每个故障都Case Study，除非人员和时间充足；

文档能力也是能力的一种，一般工程师的文档能力比较薄弱或者一般，但是一般各种类型的文档其实都有模板，根据模板填充内容也能事半功倍。

故障要有记录，每个公司应当都有wiki，这些复盘应当记录下来，能学习到很多。Case Study会占用大量的时间，但是中级以及重大故障还是有必要的。

下面介绍的就是复盘的整体套路：

故障描述

xxx业务状态码报警，存储MySQL3台云主机宕机， 根本原因是所在的宿主机宕机.

故障复盘

16:00 故障开始
16:02 发现xxx 状态码报警
16:03 op查看报警，web机器正常，同时收到三台数据库机器down机报警.
16:06 xxxxx
16:11 云厂商反馈3台云主机所在的物理机异常宕机，目前运维同事在紧急处理
16:14 云厂商反馈物理机

最低0.47元/天解锁文章

weixin_30826761

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。