公司最近迭代了新的监控系统,把思路记下来。大概有9篇文章。
本次监控搭建是结合本公司实际情况进行的,下面是两篇描述文章。
第一篇
第二篇
1、软件准备
prometheus-2.10.0.linux-amd64.tar
普罗米修斯下载地址:https://prometheus.io/download/
普罗米修斯官方文档https://prometheus.io/docs/introduction/first_steps/
普罗米修斯配置是YAML。Prometheus下载附带一个文件中的示例配置,称为prometheus.yml开始使用的好地方。
已经删除了示例文件中的大部分注释,使其更简洁(注释是以前缀为a的行#)。
global:
scrape_interval: 15s
evaluation_interval: 15s
rule_files:
# - "first.rules"
# - "second.rules"
scrape_configs:
- job_name: prometheus
static_configs:
- targets: ['localhost:9090']
示例配置文件中配置的三个模块:global,rule_files,和scrape_configs。
1、global块控制Prometheus服务器的全局配置。我们有两种选择。第一个,scrape_interval控制普罗米修斯刷新目标的频率。可以为单个目标覆盖此值。在这种情况下,全局设置是每15秒刷新一次。该evaluation_interval选项控制普罗米修斯评估规则的频率。Prometheus使用规则创建新的时间序列并生成警报。
2、rule_files块指定我们希望Prometheus服务器加载的任何规则的位置。现在我们没有规则。
3、scrape_configs控制Prometheus监视的资源。由于Prometheus还将自己的数据公开为HTTP端点,因此它可以抓取并监控自身的健康状况。在默认配置中,有一个名为job的作业,prometheus用于擦除Prometheus服务器公开的时间序列数据。作业包含一个静态配置的目标,即localhoston端口9090。普罗米修斯希望指标可以在路径上的目标上获得/metrics。所以这个默认的工作是通过URL抓取:http:// localhost:9090 / metrics。
alertmanager-0.17.0.linux-amd64.tar alertmanager下载地址https://prometheus.io/download/ 它负责对它们进行重复数据删除,分组和路由,以及正确的接收器集成,例如电子邮件,PagerDuty或OpsGenie。它还负责警报的静音和抑制。 go1.12.5.linux-amd64.tar golang下载地址:https://golang.google.cn/dl/ grafana-6.2.5.linux-amd64.tar grafana下载地址:https://grafana.com/ influxdb-1.7.7_linux_amd64.tar.gz telegraf-1.11.1_linux_amd64.tar.gz telegraf influxdb下载地址:https://www.influxdata.com/time-series-platform/telegraf/ 本次监控平台架构图