覆盖全了吗?
时效性高吗?
告警有效吗?
处置及时吗?
使用便捷吗?
每次开完分析会,我就会带一个大礼包回去,整改、梳理、优化。
——上海银行数据中心 郑晓
本文整理自上海银行数据中心郑晓在2022Zabbix峰会演讲分享。ppt可在公众号后台回复“ppt".
1、运维监控现状与挑战
其实做监控,一直被有领导问到这几个问题,你覆盖全了吗?生产上有1,000台主机,你能保证一台都不落吗?时效性高不高?生产上有一个告警出了,生产上有个故障,你1分钟之内能够发现它?告警有效吗?你们是不是一个“狼来的孩子”?处理有没有及时?报警出来之后你们多快速度能够解决故障?使用便捷吗?他的平台的UI是否好用?对客户是不是友善?
我觉得大家都应该会碰到这些问题。解决上面这些问题,不像我们今天这么轻松。很多问题是出在什么时候?故障分析会的时候,我就发现一个规律,每次开故障分析会,领导和我是必到场的,其他的一线都是流水的。每次开完分析会,我就会带一个大礼包回去,整改、梳理、优化。每次带大礼包回去,时间长受不了,会折腾死人的。
基于此,我们痛定思痛,决定从几个方向对我们的平台进行一次优化,一共5个层面。
第一,集中化,即我们对所有的数据进行集中,因为之前数据可能会分散有各个专业的数据,比如说有OEM的数据,系管的数据,网管的数据,都没有做整合,那第一要做的所有东西,数据的集中是基础。
第二,智能化,通过算法来提升故障异常感知的能力。
第三,标准化。数据的规范,指标的体系,这些标准化自动化,提升我的故障处理时效。
最后,可视化。可视化提升,大家有更好的界面去看。
基于这些,我们重新设计运维体系架构,一共分为4层。
最底层,就是所有的IT资源,倒数第二层就是采控层,采控层包括我们和所有基础IT资源打交道的那些应用系统,比如说日志采集的flume,自动化的Agent,我的自动发布的NCB,以及当然还有最主要的Zabbix。
还有专业的管理平台,比如说网管、系管也对他们自己的专业平台有采控的功能。再往上是我们的两个能力中台,数据中台和管控中台,数据中台承载的所有下面采集的数据往上做聚合、计算梳理这么一个过程,包括机器学习,集中告警,了多维分析。
所有东西都会聚合到它