上万台服务器 复杂运维场景下的主要痛点:

    如何在告警风暴时压缩告警
    如何快速从大量告警中找到故障根源
    如何提高不同运维小组的故障处理协作效率
    如何实现对IT基础设施的风险管理


基于上述背景下的痛点问题,一套以故障定位为核心的运维生态体系的建立便成为高逼格的不可或

缺:

    统一故障信息入口,使用机器学习的算法对信息进行分类整合和推理,自动定位故障生成case

,设计开发统一故障处理平台,通知工程师来平台进行处理故障。
    同时将所有数据进行沉淀分析,反馈给告警系统和质量管理系统,提高故障处理效率,加强基

础设施风险管理。

而在这套生态体系中,故障自动定位技术便是体系是否能够成功建立的核心要素。

故障根因自动定位简要科普

故障根因自动定位系统为人工智能的分支,属于诊断性专家系统,专家系统通常包含:

    人机交互界面
    知识库
    推理机

摘自百度