云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的AIOps开发者生态。
引言
近年来,随着IT系统监控能力的日益成熟,IT系统运行时问题的根因分析领域吸引了很多研究者的目光。本文通过调研大量运维领域根因分析的相关文献,并结合运维的实际需要,将根因分析问题进行了拆解,并对各子问题的解决方案进行了总结和分析。
一、IT系统及其稳定性的概念及抽象
IT系统,即IT基础设施。其定义千差万别,但一般认为是包括运营整个组织所必需的一系列物理设备和应用软件的集合,也包括由管理层预算所决定的组织范围内的人和技术能力的服务集合。业界经常提到的信息技术硬件、软件、服务方面的投资,其实就是IT基础设施。对于企业来说,这些设施能够为客户服务、与供应商建立联系和内部管理提供基础。IT基础设施的支出往往占到大型企业信息技术支出的25%-30%。IT系统运维的任务要尽可能保证服务运行环境的稳定性——即在有限的IT基础设施所提供的资源条件内,保证服务得以平稳运行。如图1所示,通过监控系统运行状态(状态监控),运维人员需要分析其中的故障点(故障检测),并通过回溯排查问题的源头(根因分析),进而对系统进行管理(控制策略及控制信号生成),以使系统运行恢复正常或保持平稳。