【Prometheus】监控系统

Node-Exporter：用于收集服务器节点的物理指标状态数据，如平均负载、CPU、内存、磁盘、网络等资源信息的指标数据，需要部署到所有运算节点。指标详细介绍：https://github.com/prometheus/node_exporter
mysqld-exporter/nginx-exporter
Kube-State-Metrics：为 Prometheus 采集 K8S 资源数据的 exporter，通过监听 APIServer 收集 kubernetes 集群内资源对象的状态指标数据，例如 pod、deployment、service 等等。同时它也提供自己的数据，主要是资源采集个数和采集发生的异常次数统计。需要注意的是 kube-state-metrics 只是简单的提供一个 metrics 数据，并不会存储这些指标数据，所以可以使用 Prometheus 来抓取这些数据然后存储，主要关注的是业务相关的一些元数据，比如 Deployment、Pod、副本状态等；调度了多少个 replicas ？现在可用的有几个？多少个 Pod 是 running/stopped/terminated 状态？Pod 重启了多少次？有多少 job 在运行中。
cAdvisor：用来监控容器内部使用资源的信息，比如 CPU、内存、网络I/O、磁盘I/O 。
blackbox-exporter：监控业务容器存活性。

Service Discovery

服务发现，用于动态发现待监控的 Target，Prometheus 支持多种服务发现机制：文件、DNS、

Consul、Kubernetes 等等。服务发现可通过第三方提供的接口，Prometheus 查询到需要监控的

Target 列表，然后轮询这些 Target 获取监控数据。该组件目前由 Prometheus Server 内建支持

Alertmanager

是一个独立的告警模块，从 Prometheus server 端接收到 “告警通知” 后，会进行去重、分组，并

路由到相应的接收方，发出报警，常见的接收方式有：电子邮件、钉钉、企业微信等。

Prometheus Server 仅负责生成告警指示，具体的告警行为由另一个独立的应用程序

AlertManager 负责；告警指示由 Prometheus Server 基于用户提供的告警规则周期性计算生成，

Alertmanager 接收到 Prometheus Server 发来的告警指示后，基于用户定义的告警路由向告警接

收人发送告警信息

Pushgateway

类似一个中转站，Prometheus 的 server 端只会使用 pull 方式拉取数据，但是某些节点因为某些原

因只能使用 push 方式推送数据，那么它就是用来接收 push 而来的数据并暴露给 Prometheus 的

server 拉取的中转站

可以理解成目标主机可以上报短期任务的数据到 Pushgateway，然后 Prometheus server 统一从

Pushgateway 拉取数据

Grafana

是一个跨平台的开源的度量分析和可视化工具，可以将采集的数据可视化的展示，并及时通知给告

警接收方。其官方库中具有丰富的仪表盘插件

5.Prometheus 的工作模式

Prometheus Server 基于服务发现（Service Discovery）机制或静态配置获取要监视的目标（Target），并通过每个目标上的指标 exporter 来采集（Scrape）指标数据；
Prometheus Server 内置了一个基于文件的时间序列存储来持久存储指标数据，用户可使用 PromQL 接口来检索数据，也能够按需将告警需求发往 Alertmanager 完成告警内容发送；
一些短期运行的作业的生命周期过短，难以有效地将必要的指标数据供给到 Server 端，它们一般会采用推送（Push）方式输出指标数据， Prometheus 借助于 Pushgateway 接收这些推送的数据，进而由 Server 端进行抓取

6.Prometheus 的工作流程

Prometheus 以 Prometheus Server 为核心，用于收集和存储时间序列数据 PrometheusServer 从监控目标中通过 pull 方式拉取指标数据，或通过 pushgateway 把采集的数据拉取到 Prometheus server 中
Prometheus server 把采集到的监控指标数据通过 TSDB 存储到本地 HDD/SSD 中
Prometheus 采集的监控指标数据按时间序列存储，通过配置报警规则，把触发的告警通知发送到 Alertmanager
Alertmanager 通过配置报警接收方，发送报警到邮件、钉钉或者企业微信等
Prometheus 自带的 Web UI 界面提供 PromQL 查询语言，可查询监控数据
Grafana 可接入 Prometheus 数据源，把监控数据以图形化形式展示出

7.Prometheus 的局限性

Prometheus 是一款指标监控系统，不适合存储事件及日志等；它更多地展示的是趋势性的监控，而非精准数据；
Prometheus 认为只有最近的监控数据才有查询的需要，其本地存储的设计初衷只是保存短期（例如一个月）数据，因而不支持针对大量的历史数据进行存储；若需要存储长期的历史数据，建议基于远端存储机制将数据保存于 InfluxDB 或 OpenTSDB 等系统中；
Prometheus 的集群机制成熟度不高，可基于 Thanos 实现 Prometheus 集群的高可用及联邦集群。

二.promethues 与 zabbix 二者该如何选择

1.首先了解两款监控系统的产生背景

1.1.zabbix的开发背景

Zabbix是一款企业级的开源监控产品，基于C语言开发。它可以用于服务器、操作系统、网络、应

用程序等目标对象监控。在监控和数据收集的方式上，可支持zabbix agent、SNMP、ping、端口

监控等多种方式。

Zabbix属于大而全的系统，具有完善的Web界面，并且集成了可视化、告警等功能。用户可在界面

上完成绝大部分的操作，这使得其上手难度低，可以被快速掌握。但与此同时，高度集成带来的缺

点则是定制化的难度很大，无法很好地进行扩展。

1.2.Prometheus的开发背景

Promehteus是一款近年来非常火热的监控系统，它使用go语言开发，设计思路来源于Google的

Borgmom(一个监控容器平台的系统）。在监控上除了支持传统的服务器、网络、操作系统等对象

外，还天然具有对Kubernetes和Docker等云原生产品的支持，这使得其可以在云原生时代大放异

彩

相比于Zabbix大而全的理念，Prometheus则要简单得多，产品只专注于监控的功能并提供简单

Web界面供用户查询，而将可视化和告警这些功能交由Grafana和Alertmanager等第三方产品来实

现。功能上的简洁使得Prometheus变得小巧而灵活，可以非常方便地进行部署与升级，并与第三

方开源产品搭配实现定制化

Prometheus的操作需要通过修改配置文件来实现，还必须掌握自带的PromQL 语言，在学习门槛

会较高，上手难度比较大。

2.二者的功能比较

2.1.指标采集方式

Zabbix

Zabbix分为两大部分，server端和agent端。agent用于部署在目标机器上，并提供数据指标给到

server，它们之间基于TCP协议进行通信

agent支持被动轮询与主动推送模式，被动模式下由server定时向agent端发起请求，agent会处理

请求并将值返回给到server端。而在主动推送下，则是由agent定时向server端发送结果。

Prometheus

Prometheus基于客户端进行数据的收集，Server端会定时与客户端进行交互，并通过pull方式获取

2.2.数据存储

Zabbix

Zabbix使用外部数据库来存储数据，目前支持的数据库有MySQL、PostgreSQL、Oracle等。在存

储的数据类型上，Zabbix除key-value格式外，还支持文本、日志等格式。

Prometheus

Prometheus将数据存储在内置的时间序列数据库（TSDB)中，该数据库相比关系型数据库可以较

大的节省存储空间，并且拥有更高的处理效率，能够快速搜索出复杂的结果。

不过，原生的TSDB对于大数据量的存储支持不太友好，所以默认情况下Pormetheus只会保存15

天的数据。如果需要更长时间的数据存储，可以配置远程存储模式，使用第三方存储介质保存数据

指标

需要注意的是，Prometheus只支持存储时间序列的值。

2.3.查询的性能

Zabbix

zabbix在查询方面功能较弱，只能通过Web界面做一些有限度的操作，或者直接到数据库使用SQL

进行查询

Prometheus

Prometheus在查询方面要比Zabbix强大得多。Prometheus提供了自带的查询语言PromQL，该语

言非常灵活、简洁且功能强大，可以与函数和运算符配合，进行计算、过滤、分组等操作，同时支

持正则表达式。

在Prometheus的Web界面可以执行表达式的查询，查询结果以图形或表格数据的形式展现。

2.4.告警功能

Zabbix

与可视化情况一样，Zabbix内置了告警功能，并支持多种介质的发送。Zabbix 警报系统允许以不

同的方式管理事件：发送消息、执行远程命令、根据服务级别升级问题等。

Promtheus

在告警上，Prometehus需要与Alertmanager结合使用。因为Prometheus的告警分为两部分，在

Prometheus Server端定义告警规则，当触发规则时则会发送到Alertmanager，并由其发送给对应

的接收人。

Alertmanager可对告警信息进行管理，具有静默、分组、聚合等功能，同时支持Email、IM等多种

介质发送

3.总结

首先可以肯定zabbix和Prometheus都是非常优秀的监控系统，但从选择上，可以根据实际需求来

确定合适的监控系统

zabbix产生时间更为长，基于c语言开发，Zabbix上手难度要低很多，对于传统的服务器、系统、

网络等都有优秀的监控能力，并且可以根据自定义模板监控加上告警监控机制，，适合对于监控方

面要求不高、整体技术能力较弱的传统企业使用。但是zabbix在云原生的部署上发展时间已经适配

程度都不如Prometheus，对于云原生的来讲，zabbix的运用和效率都没那么理想。

Prometheus是CNCF基金的第二款产品，可以说和k8s是亲兄弟一般的存在，对于Kubernetes等容

器产品的支持非常友好，且定制化程度高。但是上手难度也会更大，因此更适合具有较好技术能

力、监控需求复杂的互联网企业使用。想运用好Prometheus，promQL数据语言的掌握是必不可

少的

二.Prometheus的部署搭建

关闭防火墙

systemctl disable --now firewalld
setenforce 0

1.Prometheust Server 端安装和相关配置

上传 prometheus-2.35.0.linux-amd64.tar.gz 到 /opt 目录中，并解压
tar xf prometheus-2.45.0.linux-amd64.tar.gz
mv prometheus-2.45.0.linux-amd64 /usr/local/prometheus
cd /usr/local/prometheus/
vim prometheus.yml
 scrape_interval: 15s			#采集目标主机监控数据的时间间隔，默认为1m
  evaluation_interval: 15s 		#触发告警生成alert的时间间隔，默认是1m
  # scrape_timeout is set to the global default (10s).
  scrape_timeout: 10s			#数据采集超时时间，默认10s
metrics_path: '/metrics'        #指标数据采集路径，默认为 /metrics

配置系统启动文件
 
cd /usr/lib/systemd/system
vim prometheus.service
[Unit]
Description=Prometheus Server
Documentation=https://prometheus.io
After=network.target
 
[Service]
Type=simple
ExecStart=/usr/local/prometheus/prometheus \
--config.file=/usr/local/prometheus/prometheus.yml \
--storage.tsdb.path=/usr/local/prometheus/data/ \
--storage.tsdb.retention.time=15d \
--web.enable-lifecycle
  
ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure
 
[Install]
WantedBy=multi-user.target
 
systemctl start prometheus.service
systemctl enable prometheus.service
netstat -lntp | grep 9090

浏览器访问验证

2.部署 Exporters监控本机

上传 node_exporter-1.3.1.linux-amd64.tar.gz 到 /opt 目录中，并解压
cd /opt/
tar xf node_exporter-1.3.1.linux-amd64.tar.gz
mv node_exporter-1.3.1.linux-amd64 /usr/local/node_exporter
cd /usr/local/node_exporter
mv node_exporter /usr/local/bin/
 
 
 
配置启动文件
cd /usr/lib/systemd/system
vim node_exporter.service
[Unit]
Description=node_exporter
Documentation=https://prometheus.io/
After=network.target
 
[Service]
Type=simple
ExecStart=/usr/local/bin/node_exporter \
--collector.ntp \
--collector.mountstats \
--collector.systemd \
--collector.tcpstat
 
ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure
 
[Install]
WantedBy=multi-user.target
 
 
systemctl start prometheus.service
systemctl enable prometheus.service
netstat -lntp | grep node_exporter

关联prometheus监控9100端口

cd /usr/local/prometheus/
vim prometheus.yml
末尾添加
- job_name: "node_exporter"
    scheme: http
    metrics_path: /metrics
    static_configs:
    - targets:
      - 192.168.80.101:9100
      labels:
        service: node_exporter
 
curl -X POST http://192.168.80.101:9090/-/reload  重新载入配置

浏览器查看

3.如何监控其他主机

cd /usr/local/bin/
scp node_exporter 192.168.80.102:`pwd`
cd /usr/lib/systemd/system
scp node_exporter.service 192.168.80.102:`pwd`
 
将本地的配置文件和启动文件复制到需要监控的主机
 
 
需监控主机操作
systemctl start node_exporter.service
systemctl enable node_exporter.service
netstat -lntp | grep 9100

普罗米修斯服务器
cd /usr/local/prometheus/
vim prometheus.yml 
static_configs:
    - targets:
      - 192.168.80.101:9100
      - 192.168.80.102:9100       #添加需要监控的服务器
      labels:
        service: node_exporter
 
 
curl -X POST http://192.168.80.101:9090/-/reload重载

4.监控mysql数据库

mysql服务器
cd /opt
上传mysqld_exporter-0.14.0.linux-amd64.tar.gz
 tar xf mysqld_exporter-0.14.0.linux-amd64.tar.gz
cd mysqld_exporter-0.14.0.linux-amd64/
mv mysqld_exporter /usr/local/bin/
mysqld_exporter --help

cd /usr/lib/systemd/system
vim mysqld_exporter.service
[Unit]
Description=mysqld_exporter
Documentation=https://prometheus.io/
After=network.target
 
[Service]
Type=simple
ExecStart=/usr/local/bin/mysqld_exporter --config.my-cnf=/etc/my.cnf
 
ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure
 
[Install]
WantedBy=multi-user.target

修改 MySQL 配置文件

vim /etc/my.cnf
host=localhost
user=exporter
password=abc123

授权 exporter 用户
mysql -u root -abc123
create user 'exporter'@'localhost' identified by 'abc123'；
grant process, replication client, select on *.* to 'exporter'@'localhost'；
flush privileges;
quit
systemctl restart mysqld_exporter.service
systemctl enable mysqld_exporter.service
netstat -lntp | grep 9104

普罗米修斯服务器
cd /usr/local/prometheus
vim prometheus.yml
- job_name: "mysqld_exporter"
    scheme: http
    metrics_path: /metrics
    static_configs:
    - targets:
      - 192.168.80.103:9104
      labels:
        service: mysqld      
 
末尾添加
 
systemctl reload prometheus.service

5.监控nginx服务器

上传nginx-1.12.0.tar.gz、nginx-module-vts-0.1.18.tar.gz、 nginx-vts-exporter-0.10.3.linux-amd64.tar.gz
 
useradd -M -s /sbin/nologin nginx
tar xf nginx-module-vts-0.1.18.tar.gz
mv nginx-module-vts-0.1.18 /usr/local/nginx-module-vts
tar xf nginx-1.12.0.tar.gz
cd nginx-1.12.0/
./configure --prefix=/usr/local/nginx --user=nginx --group=nginx --with-http_stub_status_module --with-http_ssl_module --add-module=/usr/local/nginx-module-vts
 
 
make -j2 && make install

修改 nginx 配置文件，启动 nginx
cd /usr/local/nginx/conf
 
 81    server {
 82         listen 8080;
 83         vhost_traffic_status off;
 84         allow 127.0.0.1;
 85         allow 192.168.80.101;
 86 
 87         location /nginx-status {
 88             stub_status on;
 89             access_log off;
 90         }
 91         location /vts-status {
 92             vhost_traffic_status_display;
 93             vhost_traffic_status_display_format html;
 94         }
 95     }
 
 
ln -s /usr/local/nginx/sbin/nginx /usr/local/sbin/
nginx -t

cd /usr/lib/systemd/system
vim nginx.service
[Unit]
Description=nginx
After=network.target
 
[Service]
Type=forking
PIDFile=/usr/local/nginx/logs/nginx.pid
ExecStart=/usr/local/nginx/sbin/nginx
ExecReload=/bin/kill -s HUP $MAINPID
ExecStop=/bin/kill -s QUIT $MAINPID
PrivateTmp=true
 
[Install]
WantedBy=multi-user.target
 
 
systemctl start nginx.service 
netstat -lntp | grep nginx

解压 nginx-exporter，启动 nginx-exporter
tar xf nginx-vts-exporter-0.10.3.linux-amd64.tar.gz
cd nginx-vts-exporter-0.10.3.linux-amd64/
mv nginx-vts-exporter /usr/local/bin/
cd /usr/lib/systemd/system
vim nginx_vts_exporter.service
[Unit]
Description=nginx-exporter
Documentation=https://prometheus.io/
After=network.target
 
[Service]
Type=simple
ExecStart=/usr/local/bin/nginx-vts-exporter -nginx.scrape_uri=http://localhost:8080/vts-status/format/json
 
ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure
 
[Install]
WantedBy=multi-user.target
 
systemctl start nginx_vts_exporter.service
systemctl enable nginx_vts_exporter.service
 
nginx_vts_exporter --help
netstat -lntp | grep 9913

普罗米修斯服务器
vim prometheus.yml 
- job_name: "nginx_vts_exporter"
    scheme: http
    metrics_path: /metrics
    static_configs:
    - targets:
      - 192.168.80.103:9913
      labels:
        service: nginx
最后添加

三.部署 Grafana 进行展示

上传grafana-7.4.0-1.x86_64.rpm
rpm -ivh grafana-7.4.0-1.x86_64.rpm
 
systemctl start grafana-server.service
systemctl enable grafana-server.service 
netstat -lntp | grep 3000

浏览器访问

如何查看其他nodeport节点数据

导入 grafana 监控面板
浏览器访问：https://grafana.com/grafana/dashboards ，在页面中搜索 node exporter ，选择适合的面板，点击 Copy ID 或者 Download JSON

-山海皆可平

关注

10
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫