自动化运维的几个关键步骤

故障预防

基本指标监控异常后进行调控,如负载协调等测略,保证异常不裂化为故障

故障感知

就是通过监控获取指标,并对指标数据进行阈值和关联分析,提前识别异常,预测故障场景,发送告警提醒
比如常见的CPU/MEM/IO,线程死锁,DB连接,慢查询等
基本检测规则如设置阈值
关联检测如单个进程CPU,总体CPU

故障诊断

根据故障感知的输出,结合故障树即专家经验,识别明确故障场景
案例积累梳理很重要,

故障恢复

以故障诊断的输出作为输入,通过恢复策略执行实现故障自愈

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值