AIops落地5大原则

前言

清华大学裴丹教授结合个人过去20年在AIOps领域与几十家企业合作、跨多种技术栈的落地经验积累,以及150篇左右学术论文的算法积累,总结出来的AIOps落地的15条经验性原则。这些经验分成5个大类原则,分别涉及AIOps落地的大趋势、价值路线、架构路线、算法路线、生态路线五个方面。

本文是根据裴丹教授的PPT和演讲进行的整理总结。

一:大势所趋

1、顺势而为

运维技术在各行各业的重要性越来越高,像银行、证券、保险、电信、能源、工业制造、政府部门、互联网等。但同时由于各行各业数字化程度越来越高、系统规模越来越大、组件监控粒度越来越细、监控数据量越来越大以及新技术和新组件的不断引入,这些导致运维越来越难做,运维工程师也被海量高速的运维监控数据所淹没。

  1. 一方面,运维监控数据是海量的、高速的、多模态的、价值极大的、但又信噪比极低的(即:对运维人员来说直接价值最高的异常数据在数量上远远小于正常数据)。目前看,人工智能算法是处理符合上述特点的数据的最有希望的方法。
  2. 另一方面,只有在这些数据被关联起来一起分析时才能发挥出它们最大的价值,而关联需要各类复杂的依赖关系知识(逻辑组件之间的调用关系图、逻辑组件在物理组件上部署关系图、物理组件的网络路径关系图)和专家知识(组件内运维故障间的因果关系图),才能有物理意义地把各类运维信号关联起来进行有效分析。目前看,知识图谱技术是表征和应用这些用图表示的知识的最有希望的方法。

由此可见,用AI方法解决运维挑战,势在必行。

2、知己(Ops)知彼(AI)

知己是指我们要充分认识到运维(Ops)领域是一个强领域知识的计算机应用领域,专家领域知识很重要,一定要想尽办法把运维领域知识有机结合进来;

知彼是指我们要充分认识AI作为一种计算机技术类别的演进趋势,并尊重其在一定时间窗口内的能力边界,即AI是有能力边界的

AIOps是什么?就是任何模拟运维人员行为的计算机技术,它可以基于专家知识、经验、自动化、机器学习、深度学习或它们的某种组合。从另一个角度说,不要因为用到了自动化或硬逻辑,就判定其不是AI 或AIOps。我们要做的是践行“知识+数据+算法+算力”的AI 3.0概念,这也是AI应用的大势所趋。

3、触类旁通

AIops和医学领域的发展是相似的,我们可以把负责排障的数据中心组织及员工类比为医院及员工,故障类比为疾病,数据中心软硬件系统类比为病人,异常和告警类比为症状,异常检测算法类比为检验、检测设备,运维科室专家类比为医院科室医生,各科室运维专家知识类比为各科室医学专家知识。简单疾病(故障)单独科室就能处理了,复杂病症(故障)需要关联各种数据,并且跨科室专家会诊。

其实现代医学领域一直在践行AI 3.0里的“知识驱动+数据驱动”,各种新的检验检测技术层出不穷,医学诊断知识也在不断地提升,两者的结合促进了医学领域的高速发展。

二:价值路线

1、统筹规划

首先,AIOps在运维的五个基本要素(即质量、性能、效率、成本、安全)中都有很好的应用前景。统筹规划的优先级方面,效率(Develop)相对独立,安全也相对独立,那么剩下的质量、性能和成本,先关注哪个?根据以往的经验,还是要先关注质量,即系统可用性,然后是性能,在这个基础上再进行优化成本。本文后续都聚焦在运维质量上进行讨论,而在性能和成本上的落地原则大同小异。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值