运维工作人员日常监测服务器的运行情况,数据库的连接情况以及服务器的CPU的占用率、内存环境指数等。
但由于企业机器较多,用人去观察机器的运行情况难免会造成不如用大数据或者AI手段来的更加迅速;而且也节约了大量的人力成本,故引入了智能运维这个概念。
相关场景:
资源发生故障(CPU突然飙升,数据库运行缓慢)可以和所影响的业务(用户访问量,访问延迟)做关联分析。
智能阈值:
固定阈值就相当于资源的使用率;
动态阈值像是一个性能曲线,CPU的使用率、页面响应、图片加载可以使用动态阈值(移动均线);
超过阈值既可以报警。
时间诊断和时序关联:
某个时间段出现的故障,都会产生一些相关的时间,对他们进行筛选和过滤能够详细捕捉到故障和定位到根因。
HSRT:
高响应,用决策树分析加载图片数量、浏览器内核、后台负载等条件;哪个特征的影响权重更大。
KPI瓶颈分析算法:
输入为一张又宽又长的表,其中包含KPI和影响到KPI的多维属性,输出为可能影响KPI性能的属性组合。这一科研问题包括首屏时间、应用加载时间、软件报错、视频传输用户体验等。
常用的KPI瓶颈基础算法有:决策树、聚类树(CLTree)、层次聚类。
故障预测算法:
使用多种模型或方法分析服务当前的状态,并基于历史的经验判断在近期是否发生故障; 譬如交换机故障预测,从交换机日志中提取一些预示故障的信号,常用的场景包括:硬盘故障预测、服务器故障预测; 使用的算法包括隐式马尔可夫链、支持向量机、随机森林。
KPI异常检测:
检测KPI的异常行为; 输入:KPI时序测量数据,KPI异常标注区间; 输出:KPI是否发生了异常。
KPI趋势预测算法:
通过分析历史数据,判断未来一段时间KPI的趋势,常用的算法有ARIMA、EWMA、时序数据分解。
KPI相似异常:找出与KPI曲线上与模板相似的异常片段; 常用的算法有DTW,MK 最佳配对。
KPI聚类算法:大规模KPI曲线,刻画曲线间的相似性; 大量KPI时序数据曲线、每条曲线所属类别。
故障传播关系图构建算法:异常时间众多且具有相互导致关系,借助精准故障传播关系图,可以快速进行根因定位。
异常事件关联规则挖掘算法:分析异常时间两两之间的关联关系; 现有算法FP-Growth、Apriori、随机森林。
智能熔断:
异常报警聚合算法:
故障定位算法: