一、概述
天眼是中国联通IT生产运营支撑平台,对生产运营领域提供端到端、云化架构全层级的运维工具支撑,融合人工智能与大数据技术,实现传统运维向自动化生产、智慧化运营的转变,保障4亿级用户规模系统稳定运行,支撑一体化生产运营体系落地,支持“平台+应用”模式,聚焦集约、赋能省分,助力中国联通IT运营全面数字化转型。
天眼全流程调用链(Skyeye Call Chain)是为解决云原生环境下应用运维问题,基于Google Dapper论文,开发的分布式应用性能监控系统,实现从SaaS到IaaS全层级根因定位,业务全流程调用链跟踪,日均百亿级应用性能指标采集,自动生成系统链路拓扑,及时告警和准确定位故障。目前支撑cBSS新架构4000+服务,日均400亿+监控数据处理,基于Flink+ClickHouse大数据处理平台,支持分钟级根因告警输出。
二、架构
采集层:负责服务数据的采集。调用链采用Pinpoint Agent启动时埋点采集原始调用数据,发送到数据接入层;
数据接入层:改造Pinpoint Collector,将Agent发送过来的数据,转发到Kafka缓存;
数据服务层:负责数据的处理,通过Flink对明细数据