老杨的话#中翻中#:智能运维的数据中台,不具备以下三种能力就是耍流氓
20201127 GOPS上海_擎创杨辰 02
[演讲文字] (接上一讲,2021GOPS演讲实录(一)传统IT运维工作的四大挑战)
那么怎么样去提升数据的认知能力?应该说是从几个信息的提炼层面去看。
1. 大数据处理能力和治理能力
首先第一点,我们来看我们的运维数据从哪里来?其实是从传统运维中来的。从传统运维的多样化的运维工具、系统,还有一些设备及应用中间来。这些多样化的数据其实是需要经过三类的处理。第一类处理是非常重要的,就是因为数据量大,所以对于大数据量的这种持久化的方式,是要先想明白的。
日志有日志的持久化方式,键值数据、指标数据有指标数据的持久化方式,然后告警数据有告警数据的持久化的方式。光是持久化就够了吗?不够。因为一个综合排障的需求,告警日志和指标是要相互联动的,它当中的关联关系决定了说你能不能够迅速的利用到多样化的运维数据。
这中间还有一些辅佐的数据,比如说这样配置管理的数据,还有包括像APM的调用链数据,这些数据如何在一个数据处理的过程中间建立数据模型,帮助我们去构建上层的场景,这是非常重要的,就是大数据处理能力和治理能力。这里面又可能包括了数据建模,包括数据采集,持久化的策略等等。
2. 流式处理的能力
第二方面的能力是流式处理的能力,这个是非常重要,但是往往会被忽略的。因为运维数据有一个特点,它的时效性要求非常高,如果说不能够在瞬时进行处理的话,其实分析的效力就锐减。
所以基本上所有的运维数据都应该预先构建数据平台的时候,让它具备流式数据处理的能力,并且能够在流失的加工中间做一系列的动作,包括比如说数据聚合、比如在数据聚合以后还要做一些复杂的判断和判定,这些都是一些流式处理里面要去做的。包括规则化的解析,其实也是要在流式数据里面要去考虑的。如果你把它做成落盘以后再事后解析,其实效率是非常低的。
3. 算法处理能力
第三个方面就是算法处理,不是说算法加运维数据就马上变成智能运维了,这是不可能的。算法和运维数据之间还要加上复杂的工程化管理。这里面包括哪几方面内容呢?一方面的内容是比如说所有的算法无论是异常检测根因定位,还是模式识别的算法,其实都要进行模型的管理。因为任何一种算法对数据的适配,其实都是一对一的。那么不同的哪怕是同一种数据源,在不同的分析场景下,可能也会需要不同的模型,但是他利用的算法可能是同一种对不对?
同样一种基线算法,在不同的监控条件下,它需要调制成不同的模型,所以有模型必须要进行管理。那么训练完的结果是不是需要比对,肯定是需要的。并不是说所有的算法在训练完毕以后马上就可以投产,他是需要找到一个最优解的。
对于同样一种交易类别的数据,对它进行异常检测的时候,很可能用多种不同的算法对它进行训练。训练后的模型经过比对以后,找到最优解才能够投放。所以这里面怎么样在运维的数据中台上能够构建这样一个算法处理的平台能力,使得说数据的清洗,数据的训练、数据的模式比对、最后建模以后的模型管理都能够在这里实现。这才能够真正谈得上。说我们能够把运维数据处理好。
只有把运维数据处理好,把质量搞上去,我们才能够进行下一步从数据到信息和知识,信息和知识的层面。
#老杨说运维#