海量监控数据处理之道（一）：APM指标计算优化

最新推荐文章于 2022-05-26 19:13:09 发布

Tencent_Monitor

最新推荐文章于 2022-05-26 19:13:09 发布

阅读量1.9k

点赞数

文章标签：机器翻译腾讯云运维

本文链接：https://blog.csdn.net/weixin_38389696/article/details/123243471

版权

本文由腾讯云监控高级工程师熊彪分享，探讨了在APM链路指标计算场景下如何进行性能优化，通过拆分作业、Batch处理及维度剪枝等方法，实现了资源消耗降低和整体性能的2-3倍提升，确保了监控数据处理的高效稳定。

摘要由CSDN通过智能技术生成

作者：熊彪，腾讯云监控高级工程师

前言

腾讯云应用性能观测（APM）是一款应用性能管理产品，基于实时的多语言应用探针全量采集技术，为用户提供分布式应用性能分析和故障自检能力。本文主要讲述了 APM 链路指标计算场景下，性能优化提升若干方案。通过上述方案，将 APM 指标计算的整体性能提升了 2-3 倍效果。

什么是 APM 指标计算?

应用性能观测（APM）上报的原始数据是一个一个的链路 Span，要计算服务的错误率、平均响应时间、Apdex 等指标，需要将原始链路 Span 转换为相关的指标数据，再通过 Flink 流计算按一分钟窗口聚合出相关指标具体值。上述的过程称作 APM 指标计算。

名词解释：

自研高性能指标计算中台 —— Barad

应用性能监控 —— APM

腾讯云 Flink 计算资源-1核 CPU —— 1CU

海量数据上报面临的挑战

APM 现阶段随着业务接入的增长，上报流量也在不停的创造新的流量洪峰，某个地域最新的峰值流量已达到了数亿/分钟。跟随着上报调用链路数据的增长，指标计算消耗 Flink 资源也在不停的飙升。在不考虑成本情况下， Flink 作业资源若是能够支持不停的横向扩展，事情也有回转的余地，但让人沮丧的是当 Flink 作业的资源达到某 CU 值的时候，就达到了瓶颈点——导致作业的稳定性会变得极差。那么我们该如何去解决指标计算 Flink 所面临的性能压力的挑战? 并提升系统整体的稳定性？

我们该如何去解决指标计算 Flink 所面临的性能压力的挑战? 并提升系统整体的稳定性？接下来，我们将一一剖析问题的根因。

提升稳定性:拆分作业