故障处理的境界

运维工程师不可避免得会遇到各种故障的情况,[可控]是运维团队追求的终极目标之一

包括故障的可控性,所以衍生出以下的子目标:


1. 降低故障概率

海恩法则:每一起严重事故的背后,必然有29次轻微事故和300次未遂先兆,以及1000个事故隐患。

 

用数据说话,统计各种异常的原因分布:

  • 网络与硬件
  • 外部门人员配合
  • 程序代码原因
  • 架构设计缺陷
  • 数据库
  • 部署错误
  • 人为错误
  • 其他

累计一段时间以来的数据,生成分布百分比图,当某项原因突增可以及时发现 

一般来说,代码发布及运维变更(如机器增减、数据迁移、ip变更等)是两大故障导火索。所以要抽象运维对象、减少人工干预、优化操作流程降低复杂度等。各个公司的团队有自身的流程和步骤,不能一概而论,需要整个公司不仅仅运维部门的通力合作。 

 

2. 迅速发现故障

基础系统监控

基础业务监控

高级业务监控

机器存活

端口可用

实时在线人数

网络连通性

进程存活

服务超时

CPU

日志监控

数据一致性

内存

curl可用

关键组件可用

磁盘

check_http

容量监控

一般运维团队都能做到基础系统和基础业务监控,但是高级业务监控才是衡量运维团队的指标 

对报警短信要分层、分类,再过滤掉重复冗余信息后,精准下发到各自应用的负责人。

 

3. 快速处理故障

把故障的处理分成三个子步骤:响应、定位、修复

 

响应的快慢取决于运维团队的分工和职责划分,理论上运维团队需要做到7*24响应,到真正落实到每一位运维同事时,需要一定的激励和惩罚措施,这个不多说。 

定位故障需要运维团队经验的传承和分享,需要一份运维故障手册,里面记录了各种典型的故障以及处理方法,也需要有定期故障演习和各种处理预案。 

修复的速度很大程度取决于是否有足够的自动化工具,如数据修复、回滚、流量切换、机器切换等工具

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值