智能运维

智能运维

AIOps(Artificial Intelligence for IT Operations) 即智能运维,其目标是给予已有的运维数据(日志,监控信息,应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力及稳定性。

KPI:Key Performance Indicators
SRT:search response time
HSRT: High SRT (搜索时间大于一秒的搜索)

已定义的智能运维科研问题

  • 针对历史事件

    • 瓶颈分析
    • 热点分析
    • KPI聚类
    • KPI关联关系挖掘
    • 异常事件关联关系挖掘
    • 全链路模块调用链分析
    • 故障传播关系图构建
  • 针对当前事件

    • 异常检测
    • 异常定位
    • 异常报警聚合
    • 快速止损
    • 故障根因分析
  • 针对未来事件

    • 故障预测
    • 容量预测
    • 趋势预测
    • 热点分析

案例

故障预测

  • 问题描述

    • 对于发生轻微异常的组件,需要预测在未来一段时间内是否会发生故障。
  • 输入

    • KPI数据
    • 告警
  • 输出

    • 是否会发生故障
      • 1:会发生故障
      • 0:不会发生故障

转换为机器学习问题(监督学习)

  • 问题定义

    • 二分类问题
  • 关键步骤

    • 样本构造(历史样本集)
    • 特征构造
    • 分类算法(随机森林)

故障定界(异常定位)

  • 问题描述

    • 需要判断是哪一个设备故障导致的异常
  • 输入

    • KPI数据
    • 网络拓扑
  • 输出

    • 故障位置

转换为机器学习问题(非监督学习)

  • 问题定义

    • 聚类问题
  • 关键步骤

    • 样本构造(历史样本集)
    • 特征构造
    • 聚类算法(层次聚类)

异常事件关联关系挖掘(告警关联)

  • 问题描述

    • 对网络每天产生的大量告警进行关联,把属于同一个故障的告警压缩为一组
  • 输入

    • 告警
    • 网络拓扑
  • 输出

    • 告警组

转换为数据挖掘问题

  • 问题定义

    • 序列频繁项集挖掘问题
  • 关键步骤

    • 告警预处理

      • 清除重复告警
      • 清除闪断告警
    • 告警空间关联

    • 告警时间分组

    • 频繁项集挖掘

    • 挖掘出频繁项集后,有专家人工确认有关联的故障规则

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值