客户案例 | 有些故障不算严重，但造成的影响依然让运维人员后怕

大嘴吧Lucy

于 2024-10-29 11:29:00 发布

阅读量957

点赞数 14

分类专栏：智能运维文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dazuibar/article/details/143321968

版权

智能运维专栏收录该内容

50 篇文章

订阅专栏

【本文作者：公司咨询专家】

01 案例实况：故障它突然发生，又突然自愈

2023年5月的某天，某商业银行的运维团队在进行每月例行的系统巡检时，遭遇了一次突发的运维事故。

当天晚上21:00，系统运行一切正常。
交易量稳定在每分钟约5000笔，平均响应时间维持在200毫秒左右。
10分钟后监控系统突然告警，显示历史库交易量从每分钟5000笔骤降至1500笔，降幅约70%。
与此同时，平均响应时间从200毫秒飙升至1200毫秒，增幅超过500%。

通过紧急排查，运维团队发现问题集中在特定的IP通路中。就在着手进一步调查时，系统又发出新的告警，提示电子渠道整合平台（A级）出现了与历史库相关的告警信息。

就在运维团队全力应对，准备启动应急预案的时候，系统在21:15分突然自行恢复，交易量和响应时间回到正常水平。

对的，这个故障突然发生又突然自愈，持续时间5分钟。

02 故障复盘：故障根因在哪里？虽然已自愈，它的影响也不可小觑

在突发事故的复盘时，运维团队采用了从底层硬件到上层应用的多维度排查方法。

最终定位这次事故的根因：主要集中在两个系统的问题，B级的历史库系统和A级的电子渠道整合平台。（AB分级为系统重要度的级别）。引起故障及为何自愈的原因不明。

虽然时间不长，这次故障依然造成了不小的影响：

各渠道访问历史库的交易中，有1889笔出现超时情况。
在问题发生的5分钟内，系统的整体访问成功率下降到了95%，比正常时期的99.99%有明显下滑。
影响了约3500名用户的交易体验，其中包括780笔工资查询交易和1200笔转账交易。

这次事故虽然持续时间短，但由于发生在业务高峰期，也让运维团队吓出一身冷汗。它不仅暴露了系统在高负载下的健壮性问题，也凸显了现有监控和快速响应机制的不足。

03 擎创建议：面向业务对象的运维全面可观测，必不可少

此类事故在金融行业的日常生产运营工作中并不少见，擎创作为Gartner推荐的智能运维解决方案提供商，结合以往的AIOps实践经验给客户提出了两点建议。

需要提升监控系统的全面性和可观测性，尤其面向业务对象的全面可观测有待提高。虽然系统能够在问题发生时及时报警，但需要能以应用和业务为驱动来发现和观测故障。如果运维人员能第一时间知道是哪些业务路径发生故障，可能会为处理问题赢得更多时间。
问题定位的速度需要进一步提升。尽管团队能够在系统自动恢复后找到根因，但在问题发生的5分钟内，并没有能够及时定位和解决问题。

引入智能可观测系统

擎创夏洛克智能可观测中心，提供了以运维对象为核心的一体化观测分析能力，通过统一数据模型，把指标、日志、调用链等多领域的数据有机的组织在一起，结合智能运维算法，帮助用户提高故障发现、处置、以及定位的效率运维，提高系统的稳定性，保障业务的连续性。其中包括智能告警、故障聚类、根因诊断、业务场景分析等功能。

根因诊断：提供路径诊断及多维诊断两种方式。其中路径诊断对于该事故就十分适用，它可以通过有向图寻找报错根源，定位故障根因以及对业务路径的影响范围，适用于特定路径或业务的报错诊断；而多维诊断则通过决策树分析故障所在维度，适用于故障聚集性诊断，即突发大量的故障情况等。

夏洛克智能可观测中心-根因诊断

业务场景监控：以业务目标为核心，根据当下生产运营现状提供对应的场景监控，实时监控业务条线场景下的交易码依赖关系，分析请求报错趋势，针对故障可以完成快速根因定位。

夏洛克智能可观测中心-业务场景分析

擎创一体化数智运维解决方案可以根据客户当下运维建设情况，因地制宜的提供对应的建设规划，全面提升系统的稳定性和可靠性，最大限度地减少类似事故的发生，助力业务的运营一帆风顺。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。