作者:何金胜&张加浪,腾讯云云监控高级工程师
前言
知名游戏公司云资源使用了腾讯云、AWS 和自研 IDC,业务覆盖了国内和海外。云上资源包括了计算资源服务器、存储类的包括 MySQL、Redis、S3 等、大数据处理(EMR)以及网络资源等。业务服务主要通过 Golang与 PHP 语言开发,服务使用微服务框架,由多个游戏工作室共同开发完成。如此大的业务,如何实现高可用的一体化监控并降低云原生 Prometheus 的监控成本呢?
客户现状和痛点
经内部规划后,该游戏公司决定基于自建的 Prometheus 构建一体化监控系统。但是随着业务量的不断增长,自建的 Prometheus 遇到了越来越多的问题和挑战,包括:
1.服务保障挑战大。
Prometheus 集群使用过程中出现数据不准、误告警、数据丢失、数据展示卡慢。
2.大量数据下资源成本高。
起初自建 Prometheus 所需资源的成本与腾讯云 Prometheus 监控服务的实例成本接近,但随着监控数据量的增长,自建 Prometheus 所需要的资源成本比腾讯云 Prometheus 监控服务更得多。
3.监控配置复杂。
对于不同云资源,需部署不同 exporter ,并进行繁琐的后台配置。新增云服务器监控实例,需重复进行配置。
解决方案
经与云监控团队交流后,云监控 Prometheus 监控服务团队提供了解决方案:
1.优化运维成本,提升高可用。
提供原生的 Promet