本文作者:擎创夏洛克AIOps (内容节选)
一说起智能运维在国内的应用,大量的客户都分布于金融行业。因为金融业数据量巨大、对运维故障容忍度更低,所以在智能运维上的投入会更大,应用水平也更高。
但越来越多其他行业的客户,也因为降本增效的挑战而选择智能运维。本案例来自于全国最大的物流企业,过去的一两年时间里,对于运维数据的接入和治理,为未来的智能运维场景建设打下坚实的基础。
案例基本情况
该物流企业有覆盖全国中心、试点省份等多个集团业务板块的、满足一线服务台、二线技术的运维管理,业务负责人及管理人员的运营决策分析需求。
- 各集成基础监控、私有云、网管日志等6类数据源
- 日处理数据量(日志+指标+告警等)超过10亿条
解决方案规划
从整体层面看,该平台总共分为五大层级:
1 数据采集层:接入6类数据源、4类主要运维数据
2 数据支撑层:纳管CMDB和负责安全管理
3 数据处理层:AI算法引擎+流批一体化处理能力
4 应用场景层:包含四大中心,20+配套场景
5 运维展现层:统一门户和可观测分析展示
部分关键场景
1 智能应用场景-智能时序检测
针对具有时间序列、周期/非周期性的指标进行异常检测,通过对未来趋势预测、异常判断等来弥补故障发现迟、发现难的情况,对资源增长和指标裂变等进行分析,提高事前预警能力。
2 综合性运维门户
结合工作台、知识库、智能报表、自动化操作等打造一站式运维体验,采用OLAP的数据分析架构,同时满足数据查询、分析、知识获取等多样运维管理需求。
解决方案优势
数据标准化治理
通过对不同源且格式各异的运维数据,按照标准进行标准化管理、统一化服务,实现标准数据的统一应用
多维立体化监控
在基础监控和自动化的基础上,通过AI和算法调优,实现动态检测和趋势预测
算法加持
使用非结构化数据聚类算法,加之AI算法引擎,提供大数据级别的数据处理能力和速度,进一步提升监控效能
可观测性
从业务运营需求出发结合可观测定制能力,对多类型数据按需分析并给出直观结果,使运维和运营更高效化
解决方案收益
从数据采集处理、资源监控、智能算法判断、自动化故障处理到知识沉淀、故障跟踪管理,形成一体化闭环流程,实现了磁盘空间清理、应用程序重启、日志清理、数据库备份等常见日常运维工作的自动化处置,彻底从人工运维转为智能化运维,完成降本增效的要求。
- 实现对6类数据源、4类运维数据的统一采集、治理和统筹应用
- 每分钟处理原始告警500+条,压缩率高达99%
- 低代码构建流批中台任务900余项,100%实时分析处理