十年磨一剑:蚂蚁集团可观测性平台 AntMonitor

蚂蚁集团的可观测性平台AntMonitor历经多年发展,提供了全息可观测、数据智能和MaaS能力。平台涵盖了从客户端到服务端的全场景监控,支持实时数据探查、分析和AIOps智能场景化落地。特色产品包括融合日志、指标和trace的监控,一体化性能分析,高效观测能力接入,以及内置的数据智能,如灵活的数据探索分析和算法工程平台。此外,AntMonitor开放了Monitoring as a Service能力,支持监控服务化和SRE场景建设。
摘要由CSDN通过智能技术生成

蚂蚁集团的业务种类繁多,兼具金融级的“稳” 和互联网的 “快”,支撑又快又稳的业务发展需要完善的稳定性保障体系, 这个体系的基石就是可观测性平台-AntMonitor 。

早在2011年前,监控平台就已经完成初代建设,在2012到2017年这五年间,蚂蚁监控技术团队抽象出了业务视角监控牵引的模式,大大提升了核心业务的故障发现能力,同期研发了可视化引擎与易用的配置系统。为了支撑双11等大规模海量计算场景,在底层数据技术上做到了实时稳定的大规模日志和指标处理能力。随着这些能力的完成,可观测平台的产品也逐渐成熟。

2017年后,整个蚂蚁集团 可观测性能力逐步走向了全息化、数据化和智能化 。这一代整个团队除了继承前几年的平台建设优点之外,还着力解决了几个方面的问题,包括:

  • 完成从客户端到服务端,从业务应用到基础设施的 一站式全场景监控
  • 基于监控的海量数据, 实时数据探查和分析
  • AIOps 智能场景化 落地

#1 特色产品能力

1. 全息可观测

所谓的全息观测能力, 能力上 融合各项可观测能力(如指标、trace、日志、性能分析); 覆盖面上 可以做到一站式解决端到端的各类组件。这两点共同解决了数据孤岛的问题。以前观测类平台往往是四分五裂的状态,所有平台都尝试从自身的角度出发,去解决业务系统的观测问题。但是这样最终带来的是“断头路”的效果,数据只有真正能相互流通关联的时候,才能真正发挥其作用。Google也在其论文中披露,其内部监控平台也是从各个团队自行运维的borgmon逐渐收拢到统一的平台Monarch上,以解决在应急和数据分析过程中跨组件,跨部门的隔阂。

就观测能力而言, 每类观测能力均有其优势与不足 。比如,指标类数据是可以方便地展现一个实体(或大或小)随时间变化的趋势。而日志能获取明细数据,在排查具体问题的时候非常有用。trace的话往往是站在业务请求的角度,可以串联这一次请求中的上下文。蚂蚁在统一的观测平台上,逐步建立了以指标和日志为主,trace为辅助的各种能力。并且更为关键的是,平台很好地融合了这三方面的能力,使之能够各取所长。除了业界强调的可观测能力三大支柱外,蚂蚁的可观测平台还深度建设了性能分析能力和线上单机程序诊断能力。

1)日志、指标和trace的融合产品

下图上,我们可以看到底层的表格上均是关于错误量级的指标监控,同时点开也能看到错误的具体日志详情,这里对日志做了大量的模式归类、运维维度的聚合。这极大提升了业务排障的效率。

2)一体化的性能分析产品

蚂蚁的一线研发运维,可以在平台上直接或间接(通过告警自动触发)做CPU的细粒度分析。基本上,用户可以从宏观的指标到精确的代码行,都能得到定量分析。图示为on cpu的火焰图分析。

3)客户端监控能力 ,以某个小程序为例,端到端的实现全面可观测性覆盖:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值