如何监控线上正在运营的系统?如何得知系统目前是正常还是异常? Prometheus是这么一套数据监控解决方案。它能让运维及开发人员随时掌控系统的运行状态,快速定位出现问题的位置,快速排除故障。只要按照 Prometheus的方式来做,按部就班地学习和部署,我们就可以监控机器的 CPU、内存等资源的使用情况、应用程序的运行情况以及业务各项指标的实时数据。并且其与Grafana 配套使用可以呈现出非常多样化的图表配置。对于中小规模的团队来说,可以极大地减少成本,加快研发速度。
一、概述
初识Prometheus
Prometheus 是由 SoundCloud 开发的开源监控报警系统和时序列数据库。从字面上理解,Prometheus 由两个部分组成,一个是监控报警系统,另一个是自带的时序数据库(TSDB)。
2016 年,由 Google 发起的 Linux 基金会旗下的云原生计算基金会(CNCF)将 Prometheus 纳入作为其第二大开源项目。Prometheus 在开源社区也十分活跃,在 GitHub 上拥有4万多 Star,差不多8K的Fork,并且系统每隔一两周就会有一个小版本的更新。
Prometheus架构
从上图可以看到,整个 Prometheus 可以分为四大部分,分别是:
Prometheus 服务器