客户案例 | 有些故障不算严重,但造成的影响依然让运维人员后怕

【本文作者:公司咨询专家】

01 案例实况:故障它突然发生,又突然自愈

2023年5月的某天,某商业银行的运维团队在进行每月例行的系统巡检时,遭遇了一次突发的运维事故。

当天晚上21:00,系统运行一切正常。
交易量稳定在每分钟约5000笔,平均响应时间维持在200毫秒左右。
10分钟后监控系统突然告警,显示历史库交易量从每分钟5000笔骤降至1500笔,降幅约70%。
与此同时,平均响应时间从200毫秒飙升至1200毫秒,增幅超过500%。

通过紧急排查,运维团队发现问题集中在特定的IP通路中。就在着手进一步调查时,系统又发出新的告警,提示电子渠道整合平台(A级)出现了与历史库相关的告警信息。

就在运维团队全力应对,准备启动应急预案的时候,系统在21:15分突然自行恢复,交易量和响应时间回到正常水平。

对的,这个故障突然发生又突然自愈,持续时间5分钟。

图片

02 故障复盘:故障根因在哪里?虽然已自愈,它的影响也不可小觑

在突发事故的复盘时,运维团队采用了从底层硬件到上层应用的多维度排查方法。

最终定位这次事故的根因:主要集中在两个系统的问题,B级的历史库系统和A级的电子渠道整合平台。(AB分级为系统重要度的级别)。引起故障及为何自愈的原因不明。

虽然时间不长,这次故障依然造成了不小的影响:

  1. 各渠道访问历史库的交易中,有1889笔出现超时情况。

  2. 在问题发生的5分钟内,系统的整体访问成功率下降到了95%,比正常时期的99.99%有明显下滑。

  3. 影响了约3500名用户的交易体验,其中包括780笔工资查询交易和1200笔转账交易。

图片

这次事故虽然持续时间短,但由于发生在业务高峰期,也让运维团队吓出一身冷汗。它不仅暴露了系统在高负载下的健壮性问题,也凸显了现有监控和快速响应机制的不足。

03 擎创建议:面向业务对象的运维全面可观测,必不可少

此类事故在金融行业的日常生产运营工作中并不少见,擎创作为Gartner推荐的智能运维解决方案提供商,结合以往的AIOps实践经验给客户提出了两点建议。

  1. 需要提升监控系统的全面性和可观测性,尤其面向业务对象的全面可观测有待提高。虽然系统能够在问题发生时及时报警,但需要能以应用和业务为驱动来发现和观测故障。如果运维人员能第一时间知道是哪些业务路径发生故障,可能会为处理问题赢得更多时间。

  2. 问题定位的速度需要进一步提升。尽管团队能够在系统自动恢复后找到根因,但在问题发生的5分钟内,并没有能够及时定位和解决问题。

图片

引入智能可观测系统

擎创夏洛克智能可观测中心,提供了以运维对象为核心的一体化观测分析能力,通过统一数据模型,把指标、日志、调用链等多领域的数据有机的组织在一起,结合智能运维算法,帮助用户提高故障发现、处置、以及定位的效率运维,提高系统的稳定性,保障业务的连续性。其中包括智能告警、故障聚类、根因诊断、业务场景分析等功能。

图片

根因诊断:提供路径诊断及多维诊断两种方式。其中路径诊断对于该事故就十分适用,它可以通过有向图寻找报错根源,定位故障根因以及对业务路径的影响范围,适用于特定路径或业务的报错诊断;而多维诊断则通过决策树分析故障所在维度,适用于故障聚集性诊断,即突发大量的故障情况等。

图片

夏洛克智能可观测中心-根因诊断

业务场景监控:以业务目标为核心,根据当下生产运营现状提供对应的场景监控,实时监控业务条线场景下的交易码依赖关系,分析请求报错趋势,针对故障可以完成快速根因定位。

图片

夏洛克智能可观测中心-业务场景分析

擎创一体化数智运维解决方案可以根据客户当下运维建设情况,因地制宜的提供对应的建设规划,全面提升系统的稳定性和可靠性,最大限度地减少类似事故的发生,助力业务的运营一帆风顺。

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值