众所周知,银行业的行业监管和处罚非常严格,业务系统非正常停机半小时以上,就需要作为“重大“生产事故上报到行业主管部门。此外,不仅银行业如此,其他行业的核心业务系统也“耽误不起”。
想要帮助 IT 运维人员摆脱“不出故障是应该的,出了问题就难辞其咎”的普遍现象,我们首先要捋清楚 IT 管理工作的现状:
✦ 现有的管理系统缺乏足够的洞察能力,只能提升 IT 系统监控效率,很难从根源上避免故障的发生。
✦ 运维人员的经验和知识能力在多数情况下存在短板,缺少对未知故障的提前洞察与分析能力。
很多传统客户其实很早以前就预见到这一点,所以寄希望于 IT 服务管理流程。但工作过程中又会发现,真正能够落地的流程还只是传统的事故管理和变更管理。如何减少故障发生频率,如何避免因运维人员经验不足而导致的人为失误?这些问题依然没有得到解决。
集合业界最热的智能运维(AIOps)话题,我们或许可以得到一些启发 —— 一个好的 AIOps 平台,应该具备以下几个重要能力:
1全面的数据算法和机器学习能力
能够从数据的变化和趋势中洞察异常的发生,同时能够通过学习不断优化洞察的效率。
2采用运维管理数据集进行机器训练
通过机器学习,不间断地从一个全域的结构化数据训练集中自主学习和定义针对各类 IT 异常的大数据标签,对故