1.系统简介
AI结合大数据的智能运维现已成为运维领域的焦点及未来发展趋势。天眼大数据AIOps平台致力于引入成熟的AI算法、大数据流处理技术及成熟的开源组件,打造智能运维平台。该平台致力于改变依赖专家的人工低效、高成本运维模式,实现IT系统问题先于故障暴露及故障产生后快速自动定位、诊断、修复,进一步提升运维工作的自动化和智能化水平,提质增效,提高运维效率,助力实现系统可用率提升,全年无重大故障,故障、事件数同比下降,故障处理平均时长下降的目标,保障生产系统稳定运行,为中国联通互联网化转型注入动力。
现系统已上线单指标异常检测、机器指标定位、容量预测、日志异常检测、业务明细多维分析、批处理异常检测六相功能。
天眼AIOps系统架构如下图所示:
1、数据接入层:
- 对于实时检测算法,数据通过Kafka进行数据接入,后续由spark streaming任务进行消费。
- 对于触发型的算法,系统不需要对数据进行实时检测,数据接入kafka后,由logstash进行消费入库。
2、服务层:
- web前端和restapi是前后端分离的,通过nginx统一代理。
- atlas主要承担配置存储任务,restapi调用atlas接口,将系统配置存入zookeeper中。
- overseer主要承担告警收敛以及算法任务定时调度的工作。
- kraken主要承担日志模块的算法任务定时调度工作。
- Logwarn-service主要承担日志模块对于日志模版的相关操作。
3、中间件层:
- MongoDB在天眼AIOps平台中存放指标数据的元数据,例如指标名称、创建时间、租户信息等;算法模型、日志模块系统配置、批处理异常检测。MongoDB采用副本集(replica set)模式进行集群部署,primary节点(主节点)负责集群数据维护,所有数据更新操作都通过primary节点,secondary节点(从节点