AIOps对监控报警架构的挑战

最新推荐文章于 2024-06-20 22:29:38 发布

AIOps智能运维

最新推荐文章于 2024-06-20 22:29:38 发布

阅读量1.5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/g2v13ah/article/details/103535533

版权

本文探讨了AIOps在监控报警领域的应用，指出在算法落地、报警管理和报警风暴等方面面临的挑战。百度Noah监控报警系统处理海量数据，支持内部和外部客户，但遇到算法迭代周期长、报警需求复杂以及报警风暴等问题。文章通过业务模型解释了监控报警的工作流程，并提出了系统拆分的优势。未来将分享解决方案。

摘要由CSDN通过智能技术生成

作者简介

周伟百度高级研发工程师

负责百度智能运维（Noah）监控报警系统、通告平台；在精准报警、精准通告、报警收敛、公/私有云监控等方向具有广泛的实践经验。

干货概览

监控报警是故障发现的重要一环，也是百度在AIOps的最早切入方向之一，目前百度 AIOps 在监控报警方面已经有两个场景取得突出效果：智能异常检测和智能报警合并。

如何支撑 AIOps 算法在监控报警系统的快速落地并产生业务价值，这对监控报警架构提出了很大的挑战！本文首先介绍百度Noah监控报警的功能和业务模型，然后重点分析百度监控报警系统在落地 AIOps 过程中遇到的挑战。

百度Noah监控报警系统

首先我们介绍下百度的标准故障处理流程，如上图所示，主要分为以下7个过程：

故障发生：比如当内网机房核心交换机发生故障时，会造成内网的网络故障，从而导致产品线的流量损失。
故障发现：监控系统实时检测到产品线的流量异常。
故障通告：监控系统会通过短信或电话等渠道通知业务运维人员，产品线流量有异常。
故障止损：业务运维人员会执行故障预案，或者借助故障自愈平台智能地执行故障止损操作，以达到快速止损的目的，常见的操作是将流量从故障机房切到非故障机房。
故障定位：运维人员和研发人员一起定位故障根因。
故障恢复：当定位到问题后，运维人员开始执行修复操作，直到线上的所有服务（包括未接流量的模块）都彻底恢复正常。
故障总结：运维人员会对故障处理流程进行复盘总结，好的方面继续保持，不好的方面排期改正。

在整个故障处理流程中，监控系统主要负责故障发现到故障定位的环节；报警系统作为监控系统的子系统，主要负责故障发现和故障通告。

百度Noah报警系统最早服务于百度内部的监控平台，提供从机器、实例到上层业务等全方位、立体化的监控报警能力，已经覆盖百度的所有产品线。同时，系统面临很大的挑战，每秒需要处理千万级个数据点，线上的监控配置已经达到百万级别，每天会产生千万个报警事件，在这么大的量级下，还需保证秒级的报警时效性。

百度Noah报警系统不仅为百度内部用户服务，我们还同时为公有云和私有云服务提供监控报警能力。我们将内部强大的监控产品和运维理念输出到业界，打造了NoahEE产品（详见《百度云企业级运维平台——NoahEE》介绍），帮助客户一起提升运维效率和线上稳定性。另外，我们还依托报警系

最低0.47元/天解锁文章

AIOps智能运维

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。