老杨的话#中翻中#:智能运维,是在数据中台的基础上,对告警、指标和日志数据进行分析处理,并通过智能运维场景来支持运营决策。
20201127 GOPS上海_杨辰 03
下一步,从数据到信息和知识。那信息和知识的层面,在擎创看来又有什么分别呢?
首先我们来看信息。信息就是指对于运维数据的基本门类的粗加工或者说单元的加工能力。这里面又包括了4个门类。
告警数据
第一个门类是对运维数据中间最重要的一种能力,也就是告警数据。
告警是我们运维人员之眼。也就是说运维想要看到问题,多半绝大多数是先通过告警。那么如何对于告警进行处理,如何对告警进行有效的降噪、抑制,以及发现告警中间直指故障的这些相应场景,这是非常重要的一些智能化能力。这些都是一些基本能力。
指标数据
第二部分是指标的解析能力。指标的解释中心主要覆盖什么?所有的可以被指标化的数据,这里面不一定是监控中的指标,还可能包括有日志指标化了以后的一些指标,以及从一些 APM数据来源的指标,不一定是系统监控。这些指标统合在一个指标解析中心里面,就可以真正的拉通指标相关性的关系。从业务的视角对它进行一些健康的评估、异常的检测、模式的识别,乃至容量管理。在这个过程中间,你才能够真正意义上的实现从运维到运营的转变。
日志数据
第三方面就是我们日常运维中间,排障处理最用得到比较多的就是日志类的数据。
而日志类的数据又有两种处理方向。
一种处理方向,你已经确认日志的相应结构,可以对它进行结构化的解析,关键字的匹配和相应告警。
还有一种是对日志本身的结构不是非常了解,你可能是模糊的。有可能说你已经进入到double ops的状态。新版本的业务发布,你对当中的日志变化不甚了解,但是仍然可以用算法对相应的日志进行溯析,也就是说模糊的匹配这些日志的相应模式,穷尽了以后,对日志模式的变化进行跟踪和发现。这是非常有效的一种提前发现应用问题的一种方式方法。
智能场景
这些应用层的相应的能力,使得说原来原始的运维数据到达了一个可以人观察的信息的角度。但是怎么去利用这些信息,去在具体的运维过程中间解决分析问题,这个就需要从信息到知识的阶段。这中间才可以用到刚才说的4种不同的产品模块,其中的能力去构建相应的APP,我们把它叫做场景。
这场景中间可以实现很多功能。比如说像单纯的像告警的自动抑制,刚刚有提到日志的异常检测,其实还包括像业务的多维分析。比如说是银行,当出现网银的问题的时候,用户访问量突然下降了,你想要知道哪一个渠道对下降影响最大。或者说你可能有平常跑批的作业,你需要对这些批作业的这些作业健康状况进行分析,是不是能够提前预知某一些作业跑错了时间点,能不能预警一些作业的健康状况,这些都是一些相应的场景。包括容量的分析,多模容量的一些在云上的一些安置,这些其实都是一些运维应用厂家去做。
但是它主要还是在operation层。
#老杨说运维# 2021GOPS演讲实录(一)传统IT运维工作的四大挑战
#老杨说运维# 2021GOPS演讲实录(二)运维数据中台的三种必备能力