当 IT 维护集中在公司内部桌面、OA、邮件、财务、人事等系统的时候,即使5~10分钟的故障修复时间,也可以让 IT 人员“组团”天台抽根烟。
当 IT 维护集中在 ERP、WMS、PLM 等和生产密切相关的系统时,基于生产线的特殊性,运维人员只有“亚历山大”、“周末无休”一条暗无天日的路可走吗?
非也!!!
AIOps 是什么?为什么要用 AIOps?结合上面疑问,我们详细解析一下——
AIOps 是一种基于算法的 IT 运维(Algorithmic IT Operations),是由 Gartner 定义的新类别,源自业界之前所说的 ITOA(IT Operations and Analytics)。
Gartner 报告预测,到2020年,将近50%的企业将会在其业务和 IT 运维方面采用 AIOps,远远高于今天的10%。
机器学习,简化运维
作为一种将算法集成到工具里的新型运维方式,AIOps 可以帮助企业最大程度的简化运维工作,把 IT 从耗时又容易出错的流程中解放出来。
有了 AIOps,当 IT 出现故障隐患,运维人员不需要再等待系统发出故障告警,通过内置的机器学习算法以及大数据技术,就能自动发现系统的各类异常,从而实现从异常入手判断故障发生的可能性、严重性和影响,依赖机器对数据的分析结果,判断最佳的应对方案。
由此可以看出,基于 AIOps 的管理方法对监控式运维的底层技术实现了颠覆。传统 IT 运维管理工具更为关注突发事件(即告警)、配置和性能,而 AIOps 则更加关注问题、分析和预测,二者可谓互相补充相得益彰。
两大算法,提升管理
AIOps 依赖于机器学习(Machine Learning)。那么,机器学习的哪些算法有助于提升 AIOps 的管理效果呢?
聚类算法
聚类(Cluster):聚类算法,通俗理解即合并同类项。但是这个合并是要在一定的规则下进行合并。
在海量数据中,聚类操作可以最大限度的压缩结果集的数量,使异常更容易被系统识别。因此,聚类算法经常会被用于对海量未知数据的探索和分析。
回归算法
回归(Regression):回归算法,顾名思义,就是通过将现有的数据总量、类型、内容以及变化趋势和历史数据进行比对,由此发现异常的数据量、异常的数据类型、异常的内容以及异常的变化趋势。回归算法又分为逻辑回归(Logistic Regression)和线性回归(Linear Regression)两种,基于回归算法的这种特性, AIOps 通常会利用回归算法来进行趋势预测。
其他算法
其它算法:除了聚类和回归这两种主要的机器学习算法,AIOps中通常还会包括随机森林(Random Forrest),物质扩散和热传导算法(Heat Spreading),离群点检测(Outlier Detection)以及时间序列算法等等。
对 IT 运维人员而言,当一条告警被确认的时候,不但意味着你第一时间发现了业务故障,更意味着在故障发生的这一刻,业务已经受到了影响。而随着 AIOps 的出现,IT 部门可以通过机器学习和算法技术,事先发现 IT 系统的运行异常,提前进行故障的防范甚至规避措施,确保业务故障不出现或者少出现,这些对于 IT 和业务部门来说意义重大。