【本文作者:公司咨询专家】
01 案例实况:故障它突然发生,又突然自愈
2023年5月的某天,某商业银行的运维团队在进行每月例行的系统巡检时,遭遇了一次突发的运维事故。
当天晚上21:00,系统运行一切正常。
交易量稳定在每分钟约5000笔,平均响应时间维持在200毫秒左右。
10分钟后监控系统突然告警,显示历史库交易量从每分钟5000笔骤降至1500笔,降幅约70%。
与此同时,平均响应时间从200毫秒飙升至1200毫秒,增幅超过500%。
通过紧急排查,运维团队发现问题集中在特定的IP通路中。就在着手进一步调查时,系统又发出新的告警,提示电子渠道整合平台(A级)出现了与历史库相关的告警信息。
就在运维团队全力应对,准备启动应急预案的时候,系统在21:15分突然自行恢复,交易量和响应时间回到正常水平。
对的,这个故障突然发生又突然自愈,持续时间5分钟。
02 故障复盘:故障根因在哪里?虽然已自愈,它的影响也不可小觑
在突发事故的复盘时,运维团队采用了从底层硬件到上层应用的多维度排查方法。
最终定位这次事故的根因:主要集中在两个系统的问题,B级的历史库系统和A级的电子渠道整合平台。(AB分级为系统重要度的级别)。引起故障及为何自愈的原因不明。
虽然时间不长,这次故障依然造成了不小的影响:
-
各渠道访问历史库的交易中,有1889笔出现超时情况。
-
在问题发生的5分钟内,系统的整体访问成功率下降到了95%,比正常时期的99.99%有明显下滑。
-
影响了约3500名用户的交易体验,其中包括780笔工资查询交易和1200笔转账交易。
这次事故虽然持续时间短,但由于发生在业务高峰期,也让运维团队吓出一身冷汗。它不仅暴露了系统在高负载下的健壮性问题,也凸显了现有监控和快速响应机制的不足。
03 擎创建议:面向业务对象的运维全面可观测,必不可少
此类事故在金融行业的日常生产运营工作中并不少见,擎创作为Gartner推荐的智能运维解决方案提供商,结合以往的AIOps实践经验给客户提出了两点建议。
-
需要提升监控系统的全面性和可观测性,尤其面向业务对象的全面可观测有待提高。虽然系统能够在问题发生时及时报警,但需要能以应用和业务为驱动来发现和观测故障。如果运维人员能第一时间知道是哪些业务路径发生故障,可能会为处理问题赢得更多时间。
-
问题定位的速度需要进一步提升。尽管团队能够在系统自动恢复后找到根因,但在问题发生的5分钟内,并没有能够及时定位和解决问题。
引入智能可观测系统
擎创夏洛克智能可观测中心,提供了以运维对象为核心的一体化观测分析能力,通过统一数据模型,把指标、日志、调用链等多领域的数据有机的组织在一起,结合智能运维算法,帮助用户提高故障发现、处置、以及定位的效率运维,提高系统的稳定性,保障业务的连续性。其中包括智能告警、故障聚类、根因诊断、业务场景分析等功能。
根因诊断:提供路径诊断及多维诊断两种方式。其中路径诊断对于该事故就十分适用,它可以通过有向图寻找报错根源,定位故障根因以及对业务路径的影响范围,适用于特定路径或业务的报错诊断;而多维诊断则通过决策树分析故障所在维度,适用于故障聚集性诊断,即突发大量的故障情况等。
夏洛克智能可观测中心-根因诊断
业务场景监控:以业务目标为核心,根据当下生产运营现状提供对应的场景监控,实时监控业务条线场景下的交易码依赖关系,分析请求报错趋势,针对故障可以完成快速根因定位。
夏洛克智能可观测中心-业务场景分析
擎创一体化数智运维解决方案可以根据客户当下运维建设情况,因地制宜的提供对应的建设规划,全面提升系统的稳定性和可靠性,最大限度地减少类似事故的发生,助力业务的运营一帆风顺。