智能运维
AIOps(Artificial Intelligence for IT Operations) 即智能运维,其目标是给予已有的运维数据(日志,监控信息,应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力及稳定性。
KPI:Key Performance Indicators
SRT:search response time
HSRT: High SRT (搜索时间大于一秒的搜索)
已定义的智能运维科研问题
-
针对历史事件
- 瓶颈分析
- 热点分析
- KPI聚类
- KPI关联关系挖掘
- 异常事件关联关系挖掘
- 全链路模块调用链分析
- 故障传播关系图构建
-
针对当前事件
- 异常检测
- 异常定位
- 异常报警聚合
- 快速止损
- 故障根因分析
-
针对未来事件
- 故障预测
- 容量预测
- 趋势预测
- 热点分析
案例
故障预测
-
问题描述
- 对于发生轻微异常的组件,需要预测在未来一段时间内是否会发生故障。
-
输入
- KPI数据
- 告警
-
输出
- 是否会发生故障
- 1:会发生故障
- 0:不会发生故障
- 是否会发生故障
转换为机器学习问题(监督学习)
-
问题定义
- 二分类问题
-
关键步骤
- 样本构造(历史样本集)
- 特征构造
- 分类算法(随机森林)
故障定界(异常定位)
-
问题描述
- 需要判断是哪一个设备故障导致的异常
-
输入
- KPI数据
- 网络拓扑
-
输出
- 故障位置
转换为机器学习问题(非监督学习)
-
问题定义
- 聚类问题
-
关键步骤
- 样本构造(历史样本集)
- 特征构造
- 聚类算法(层次聚类)
异常事件关联关系挖掘(告警关联)
-
问题描述
- 对网络每天产生的大量告警进行关联,把属于同一个故障的告警压缩为一组
-
输入
- 告警
- 网络拓扑
-
输出
- 告警组
转换为数据挖掘问题
-
问题定义
- 序列频繁项集挖掘问题
-
关键步骤
-
告警预处理
- 清除重复告警
- 清除闪断告警
-
告警空间关联
-
告警时间分组
-
频繁项集挖掘
-
挖掘出频繁项集后,有专家人工确认有关联的故障规则
-