AIOps做根因定位靠不靠谱？

最新推荐文章于 2024-06-20 22:29:38 发布

forrestzhaoc

最新推荐文章于 2024-06-20 22:29:38 发布

阅读量1.5k

点赞数 1

文章标签：大数据编程语言人工智能 java 深度学习

本文链接：https://blog.csdn.net/forrestzhaoc/article/details/110152814

版权

本文从与浙江移动的讨论出发，分析了AIOps在根因定位上的局限性，提出AIOps更适用于故障感知和预测。AIOps、DevOps与SRE的关系被阐述为AI发现问题，SRE通过Ops和Dev手段解决。同时指出，运维工作仍需要具备经验和技术的新型SRE，而非完全被机器替代。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

昨晚跟浙江移动晓征总畅谈很久，从狭义AIOps做根因分析引出，聊了AIOps的作用，跟SRE的关系，实践的总结，有很多共鸣，也碰撞出很多有意思的观点。

结合晓征总整理的，和我记录的，形成一篇文章，算是抛砖引玉，在AIOps经历了几年实践的基础上，再次探讨下AIOps这个话题。

以下是正文：

和兄弟们和以及江湖上的专家研讨了一番，居然哭笑不得地得出一个初步结论，抛抛砖：狭义上的AIOps存在严重泡沫。

几个观点：

第一、靠AIOps做根因定位靠不靠谱？

AI无论基于机器学习还是深度学习，都依赖于大量的数据。但运维场景往往需要从一次故障中汲取改进的力量，而这个是典型的小数据量建模，需要大量的常识、经验，需要用到归纳和演绎能力，而这些恰恰是人类的优势，现阶段的AI还难以支撑。

所以，实践中，在故障时，再依赖什么AIOps做根因定位，实践中没有成功过。原因也不难理解，因为每次故障的原因，都会跟之

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

forrestzhaoc

关注关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

AI系统根因分析原理与代码实战案例讲解

AGI×大数据，开启智能时代的认知跃迁；解码AGI，赋能数据驱动的智能革命。

06-29

267

AI系统根因分析原理与代码实战案例讲解作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词：AI系统故障诊断，根因分析，异常检测，数据驱动，深度学习 1. 背景介绍

根因定位FluxRank论文背景说明

lovelife110的博客

04-29

4884

摘要软件服务的故障直接影响用户体验和服务收入。因此，运维可以在服务所在的每台计算机上监视服务级别的KPI（例如响应时间）和计算机级别的KPI（例如CPU使用情况）。当服务失败时，运维必须尽快定位根本原因的机器并减轻故障。由于难以获得所需的额外测量数据，现有方法的应用受到限制。目前故障定位在很大程度上是手动的并且非常耗时。本文介绍了FluxRank，它是一种可广泛部署的框架，可以自动准确地定位根本原因机器，以便可以触发某些操作来减轻服务故障。我们使用来自搜索公司的五个真实服务（具有成千上万台计算机）的历史案

5 条评论您还未登录，请先登录后发表或查看评论

判定表与判定树的画法_微众银行智能运维AIOps系列| 基于交易树的根因告警定位方法（九）...

weixin_28702147的博客

12-29

651

智能运维系列专题简介：智能运维（AIOps），根据Gartner的最新阐释，意指整合大数据和机器学习能力，通过松耦合、可扩展方式去提取和分析数据量（volume）、种类（variety）和速度（velocity）这三个维度不断增长的IT数据，进而为IT运维管理产品提供支撑。在此，微众银行智能运维团队根据一线工作的实践经验与心得体会，特别撰写了《智能运维系列》文章，本公众号后期将陆续发布，敬请持续关...

【AIOps探索】基于CauseInfer方法的根因定位

weixin_42556618的博客

07-16

1277

背景近些年来，在需要支持多平台的互联网应用中，越来越多的公司选择从单体系统迁移到微服务架构。微服务系统通常包含成百上千的应用，这些系统是高度动态和复杂的，一个服务可以有几个到几千个实例运行在不同的容器和服务器上，而可用性问题一直是大规模微服务系统面临的一个关键挑战。在这些系统中，服务质量（如性能、可靠性）的任何异常都有可能沿着服务调用链传播，由少量的根因节点影响到关联节点，并最终导致业务级别的可用性问题（如访问成功率下跌）。针对运维中的难题，全球权威的IT研究与顾问咨询公司 Gar...

【AIOps】基于AIOps的故障根因分析及定位

最新发布

酒酿小圆子呀～

06-20

819

基于机器学习的异常检测与分析技术复杂运维场景下，如何实现分钟级的故障根因定位基于大语言模型的云故障根因分析｜顶会EuroSys24论文

AIOps探索 | 国外知名厂商根因分析实践分享&新方法探索

智能运维及数据中台探索

03-14

1307

哈喽，大家好~转眼又到我们分享干货环节了，上一篇AIOps干货后台收到不少反馈，总体来说效果还不错，感谢大家喜欢，后续楼主会定期更新AIOps相关干货，感兴趣的朋友可以一键三连，以防迷路。话不多说，我们往下看

用根因定位法，让运维效率再高一点！

CSDN云计算

04-19

2649

‍‍作者 |中国农业银行研发中心王哲头图 | 下载于视觉中国出品 | CSDN云计算（ID：CSDNcloud）随着业务不断发展，微服务架构越来越受到各大企业的青睐，随之也给传统运维带...

电商付费会员模式，究竟靠不靠谱？.pdf

03-12

电商付费会员模式，究竟靠不靠谱？.pdf

分析几种教育互联网形态在线教育到底靠不靠谱？.docx

09-27

分析几种教育互联网形态在线教育到底靠不靠谱？.docx

大数据培训靠不靠谱？如何选择培训机构？

weixin_42142987的博客

05-06

2811

很多想加入大数据行业的人都是通过参加大数据培训这种方式，可是大数据培训真的靠谱吗？作为一个在培训行业摸爬滚打很多年的人，目前供职于科多大数据公司，一心致力于将职业培训惠及更多人而努力工作，今天给到大家一些负责任的建议，希望对你有用。现在不论是大数据培训还是其他的培训，我们都称之为职业技能培训，是以就业为导向的，然而就业这把尺子却是无形的，他没办法量化标准，所以就有培训这个行业实力参差不齐的情况...

智邦国际软件产品正规吗？软件质量靠不靠谱？

zbintel22的博客

12-21

4585

以质量促品牌，以品牌促发展。近日，2018中国软件品牌大会，在山东省青岛市隆重召开。中国软件行业协会，作为唯一代表中国软件产业界的行业组织，联合青岛国家高新区管理委员会等，联合举办了此次大会。作为中国企业管理软件领导品牌，智邦国际受邀参加本次会议。在2018年中国优秀软件产品颁奖环节，“智邦国际企业管理软件V3.0”，凭借对企业一体化管理持续的创新能力，以及在企业移动化办公方面综合的技术实...

告警策略与根因定位

Mark_Australia的博客

09-17

2262

异常检测->告警策略->根因分析都是AIOps中非常关键的步骤。告警策略模型通常和业务类型、用户偏好及应用场景等业务相关，解决不同场景下特定问题。根因定位：定位发生异常时那些属性导致了异常；定位哪些指标的异常导致事件异常的发生； FOCUS：《Focus: Shedding Light on the High Search Response Time in the Wild》，目标是解决在运维过程中，发现高搜索响应时间之后，使用机器学习算法发现异常的原因和规则。 FOCUS 使用系统

【根因定位】报警聚类算法在美团业务系统的落地实施

weixin_47082769的博客

07-27

759

在业务服务中，日志记录了关键执行点、程序执行错误时的现场信息等重要信息。当系统出现故障时，运维人员通常会查看错误日志来定位故障原因。在业务流量较小、逻辑复杂度较低的情况下，错误日志较少，运维人员可以快速定位问题。然而，随着业务逻辑的不断迭代和系统接入的依赖服务增多，错误日志的数量可能急剧增加。在这种情况下，错误日志的内容可能相互掩埋、相互影响，运维人员面对大量报错可能难以理清逻辑，导致难以快速解决核心问题。报警信息是系统中的一种重要报告机制，用于通知运维人员发生故障或异常。

HotSpot-多维属性的kpi异常定位（根因分析）

坚持的力量

07-09

9462

最近公司有这方面的需求，所以，就找一些论文和资料来了解一下在异常检测基础之上，如何做到对异常或者故障的根因分析。有两种根因分析的需要，一种就是单指标异常检测，就是指标就是一维的这种，如果这种指标发生异常，直接就能够锁定到相关时间，位置，如果这种做异常检测，自然就需要升维，就是比如说，同时针对几个指标来进行，用窗口划分，然后看看同一时间段，都有哪些指标发生异常，然后这些窗口内的数据就组成原始处理数...

微服务系统异常检测和根因定位方法综述

CSDNwzl的博客

05-11

5400

CSUR22 - Anomaly Detection and Failure Root Cause Analysis in (Micro) Service-Based Cloud Applications: A Survey 基于(微)服务的云应用中的异常检测与故障根源分析:综述总结到目前(2022)，学术界故障检测和根因定位方法的综述当前的异常检测技术，都需要一个baseline去构建预知识。当线上执行差距过大（并发压力、环境、基础测试集构建错误等），会造成检测不准确根因定位技术：各有千..

根因分析告警（进行根因分析的要素）

Dove_1234的博客

04-12

1345

本文目录一览：所谓的AIOps，简单理解就是基于自动化运维，将AI和运维很好的结合起来。AIOps的落地在多方面直击传统运维的痛点，AI算法承担起分析海量运维数据的重任，能够自动、准确地发现和定位问题，从决策层面提高运营效率，为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。可见，AIOps 在企业中的作用正在进一步放大。但事实上，很多企业对于AIOps 能解决什么问题并不清晰，今天我们就以博睿数据的AIOps 的三大场景和算法说起。作为中国领先的智能可观测平台，在AIOps实践方面，多年来博

标准化故障根因定位应该怎么做

kindlingx的博客

03-22

936

在现代软件开发和运维中，故障的及时响应和有效解决是确保服务稳定性的关键。然而，由于技术环境的复杂性和多样性，故障的根因定位往往是一项耗时且充满挑战的任务。为了提高故障处理的效率和准确性，标准化故障根因定位的方法和流程显得尤为重要。本文将探讨为什么需要标准化故障根因定位，以及标准化故障根因定位应该怎么做。标准化是提高工作效率和质量的基础。在故障根因定位中，标准化意味着建立一套统一的流程和方法，使得不同的人员在面对相同或类似问题时，能够按照既定的路径进行调查和分析。

根因分析 Root Cause Analysis

JasonH2021的博客

10-01

6167

简单介绍了根因分析的基本概念，步骤，主要方法和注意事项等

大规模Aiops系统在核心网数据中心的探索与实践-算法架构

Liao_Wenzhe的博客

02-13

997

目录 1.背景： 2. KPI分类： 3. 分类异常检测 4. 关联分析与告警收敛 5. 根因分析 1.背景：异常检测需要监控的指标繁多（50万左右），覆盖了机器性能，业务用户数，率等众多指标检测。而利用最少的人为参与同时及时准确发现这些指标数据的异常波动，是业务稳定性的重要保证。但是这些数据不但数量众多，而且不同业务的曲线也有截然不同的特征： 2. KPI分类：由于KPI数量众多，且形状各异，故先对海量KPI数据进行分类，包括离线和在线2个模块： ...

Tinkpad p15 gen2闲鱼上买的靠谱不？

06-10

关于闲鱼上购买ThinkPad P15 Gen 2的靠不靠谱，这要根据您购买的具体情况而定。下面是一些建议： 1. 选择信誉度较高的卖家。在闲鱼平台上，可以通过查看卖家的信誉度、交易记录、评价等信息来判断卖家的可信度。建议选择信誉度较高、交易记录较多的卖家。 2. 确认产品的真实性。在购买前，可以要求卖家提供产品的详细照片，包括外观、型号、序列号等信息，以确认产品的真实性。同时，建议购买时选择货到付款或第三方担保交易方式，以确保货款安全。 3. 注意产品的配置和使用情况。在购买前，要了解ThinkPad P15 Gen 2的基本配置和使用情况，以避免购买到配置低、使用不当或存在问题的产品。可以在购买时向卖家询问产品的使用情况、维修记录等信息，以便更好地评估产品的价值和可靠性。总的来说，闲鱼是一个可以购买二手产品的平台，但是在购买前需要谨慎评估卖家的信誉度和产品的真实性、配置和使用情况，以避免购买到低质量或存在问题的产品。