一、运维工作现状介绍
运维工作既与需要运维的平台采用的技术息息相关,也与运维工具的发展息息相关,还与运维服务的用户相关。
运维对象从早期烟囱式的技术架构发展到以x86为主的架构,再到现在大量采用的微服务、云原生的架构,以及大数据、机器学习技术平台,运维对象发生了剧烈的变化。
运维工具从早期的基础设施监控,发展到日志监控,再到现在的应用性能监控(APM),可观察性监控。
运维面向的用户也从早期的以企业内部用户为主,发展到了以企业提供线上服务的用户为主。
二、运维数据中台需求来源:运维工作面临的问题
由于运维对象、运维工具、运维需求的快速变化,导致金融机构有少则几套监控工具,多则数十套监控工具,而这些监控工具通常是在不同时期建设的,所以他们之间往往数据没有打通,技术栈也有较大的区别,形成了一座座运维数据的孤岛。
运维人员日常需要在众多的监控工具之间切换来切换去,导致故障的发现困难,故障的定位耗时耗力,故障的解决重复劳动,无法形成有效的知识积累。并且以前基于固定阈值的告警规则无法满足海量监控指标的设置和管理,需要将人工智能技术与运维工作结合到一起。随着智能运维(AIOps)的快速发展,机器学习的算法、模型等对运维数据的规范化提出了更高的要求。
所以现在迫切需要一套以各种监控工具生成的数据为源头,以统一的运维数据管理体系为规范,可以支撑运维数据的编排、AIOps算法编排和各类运维数据关联分析的运维数据中台,来采集各种各样的运维数据,经过清洗转换提供给AIOps的场景来使用。
伴随知识图谱技术在各行各业的广泛应用,在运维行业,各种运维实体(包括硬件实体和软件服务等