昨晚跟浙江移动晓征总畅谈很久,从狭义AIOps做根因分析引出,聊了AIOps的作用,跟SRE的关系,实践的总结,有很多共鸣,也碰撞出很多有意思的观点。
结合晓征总整理的,和我记录的,形成一篇文章,算是抛砖引玉,在AIOps经历了几年实践的基础上,再次探讨下AIOps这个话题。
以下是正文:
和兄弟们和以及江湖上的专家研讨了一番,居然哭笑不得地得出一个初步结论,抛抛砖:狭义上的AIOps存在严重泡沫。
几个观点:
第一、靠AIOps做根因定位靠不靠谱?
AI无论基于机器学习还是深度学习,都依赖于大量的数据。但运维场景往往需要从一次故障中汲取改进的力量,而这个是典型的小数据量建模,需要大量的常识、经验,需要用到归纳和演绎能力,而这些恰恰是人类的优势,现阶段的AI还难以支撑。
所以,实践中,在故障时,再依赖什么AIOps做根因定位,实践中没有成功过。原因也不难理解,因为每次故障的原因,都会跟之