【摘要】在数据中心当前运维工作中,对于机器运行指标的监控主要通过监控指标当前值结合固定阈值或动态基线进行告警,缺乏指标趋势预测能力,导致无法提前识别风险。为进一步提升数据中心指标趋势预测能力,本文探索并构建了一套由数据采集、数据加工、模型建模以及模型应用几个模块组成的运维数据智能分析系统,同时由于生产上实际的机器运行指标数据在周期性、平稳性以及随机性等方面会表现出不同的变化形态,为方便准确预测不同变化形态的数据,本文在此系统基础上研究了一种通用的指标趋势预测模型训练方法。研究结果表明,对于平稳性和周期性表现比较好的机器指标运行数据,预测效果一般会比较好,能够满足生产使用的要求,而对于随机波动变化的数据,预测效果会很差,模型无法提前有效预测出异常突变的情况。
背景
随着当今社会数字化业务的高速发展,运维模式不断被逼迫加快数字化转型,以GARTNER的“基础设施和运营IT评分体系"下的4000多份问卷测评和中国数据中心服务能力成熟度指数白皮书的评测数据分析,传统的运维模式下的绝大部分企业(评测分均为3分以下,满分5分)并不足以作为数字化支撑的基础。基础设施IT运营迫切进行转营,强调服务和体验以用户为中心,要以智能运维作为支撑IT运营转型的核心。
为了应对新技术演进以及业务创新加速对运维带来的新挑战,践行数字化转型要求,我行数据中心已持续多年建设智能运维体系,而智能运维其中一个比较显著的特点就是加大对运维数据的分析利用,通过构建人工智能模型来辅助运维决策。在日常运维工作中,运维人员需要通过对基础设施、系统服务等的监测来进行日常维护和维修保障工作,目前中心对于机器运行指标的监控主要通过监控指标当前值结合固定阈值或动态基线进行告警,缺乏指标趋势预测能力