随着云计算、大数据的不断发展,系统架构不断升级,功能持续迭代。系统的复杂性越来越高,故障的发生不可避免,场景也无法预测。就硬件设备来说,IT设备规模不断增加,告警种类与数量也随之增加。核心层的故障牵一发动全身,可能会产生大面积的告警,故障定位效率大大降低,同时影响业务系统正常运行。
今天我们分享故障发生后,如何第一时间定位到故障性能指标,快速恢复系统运行以降低故障影响的方法。
小伙伴不禁发问,故障是不可避免的吗?
是的,非但故障不可避免,甚至什么时候、什么场景发生故障都无法预测的。
只要有可能,就一定会发生,墨菲定律如是说。
故障定位方法
1、经验驱动
根据个人经验,通过应用逻辑功能,上下游调用链、数据流向、应用配置、数据库流水等要素,快速定位故障。此处凭借高能经验值不足为外人道也。
2、启动应急预案
故障发生可能会影响业务的正常运行,运维工程师可以启动紧急预案,缓解抢修压力。可将预案乐高式拼装,一旦产生故障,预案可自动触达。通过场景模块的整合,形成标准化动作,同时也丰富预案的模块设计。
万般技巧皆是用来保障系统业务的稳定运行。
3、测试复现
查看生产环境的异常日志,同步测试系统,将生产已知缺陷数据在线化,辅助测试定位。在线获得配置信息,查看应用配置项的生产设置情况,快速掌握故障根因。
工具使用
1、查看日志
日志是运维了解硬件及软件内部逻辑的一面窗口。日志记录业务、中间件、系统等全链路信息,可以有效监控IT系统各个层面,可有效地调查系统故障,监控系统运行状况。
一体化的日志分析平台和AI技术结合,归纳分散日志,对日志数据进行二次加工,大大提升故障定位能力。
2、链路关系
运维工程师可对平台现有链路关系进行在线的获取,充分掌握平台系统的可维护性与可靠性,服务调用配套的解决方案。
3、监控定位
监控的核心价值是发现异常,即刻响应。主要体现以下几方面:
1
对异常的描述。
2
告警收敛,基于 CMDB 关系数据进行初步定位。
3
利用监控数据与 AI算法,智能化故障定位。
4、数据感知
通过数据基线,感知系统健康状态,多维度组合的可视化、即时的信息推送能够更快,更全面的感知异常。
5、知识库匹配
支持数据源、指标、文本异常检测,基于故障案例、数据挖掘的故障诊断、故障预测、故障自愈、 成本优化、资源优化、容量规划、性能优化等场景。
解决专家不在故障处理现场的问题,以及技能的沉淀与传承。
6、推荐LinkSLA智能运维管家