概述
一、监控简介
prometheus存储的是时序数据(时序数据库)
数据带时间标签
如<metric name> {<label name>=<label value>, ...}
二、监控拓扑
安装部署
一、安装软件
[root@prometheus ~]# wget https://github.com/prometheus/prometheus/releases/download/v2.45.4/prometheus-2.45.4.linux-amd64.tar.gz
# 解压即可直接执行
[root@prometheus ~]# tar -xf prometheus-2.45.4.linux-amd64.tar.gz -C /usr/local/prometheus
# 查看时区
[root@prometheus ~]# timedatectl
# 如果时区不正确,则改为正确的时区
[root@prometheus ~]# timedatectl set-timezone Asia/Shanghai
# 查看时间
[root@prometheus ~]# date
# 如果时间不正确,则改为正确的时间
[root@prometheus ~]# date -s "年月日 时:分:秒"
二、配置文件
配置文件中包含三个配置块:global、rule_files和scrape_configs
global块控制prometheus服务器的全局配置
rule_files块指定我们希望prometheus服务器加载的任何规则的位置
scrape_configs块控制prometheus监控的资源
systemd
新建service文件,启动服务
[root@prometheus ~]# vim /usr/lib/systemd/system/prometheus.service
[Unit]
Description=Prometheus Monitoring System
After=network.target
[Service]
ExecStart=/usr/local/prometheus/prometheus \
--config.file=/usr/local/prometheus/prometheus.yml \
--storage.tsdb.path=/usr/local/prometheus/data/
[Install]
WantedBy=multi-user.target
[root@prometheus ~]# systemctl daemon-reload
[root@prometheus ~]# systemctl enable prometheus.service --now
[root@prometheus ~]# ss -ntulp | grep 9090
tcp LISTEN 0 128 *:9090 *:* users:(("prometheus",pid=1483,fd=7))
prometheus控制台
浏览器访问prometheus控制台
查看主机状态
查看某项监控数据
go_memstats_alloc_bytes
被监控端
一、监控方式
1、Pull:
服务端主动向客户端拉取数据,这样需要客户端上安装exporters(导出器)作为守护进程
2、Push:
客户端需要安装pushgateway插件,然后运维人员用脚本把监控数据组织成键值形式提交给pushgateway,再由它提交给服务端
二、部署通用的监控exporter
node-exporter用于监控硬件和系统的常用指标
exporter运行于被监控端,以服务的形式存在。每个exporter所使用的端口号都不一样
[root@web1 ~]# tar -xf node_exporter-1.5.0.linux-amd64.tar.gz
[root@web1 ~]# mv node_exporter-1.5.0.linux-amd64 /usr/local/node_exporter
# 创建service文件,并启动服务
[root@web1 ~]# vim /usr/lib/systemd/system/node_exporter.service
[Unit]
Description=node_exporter
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/node_exporter/node_exporter
[Install]
WantedBy=multi-user.target
[root@web1 ~]# systemctl daemon-reload
[root@web1 ~]# systemctl enable node_exporter.service --now
[root@web1 ~]# ss -ntulp | grep 9100
tcp LISTEN 0 128 *:9100 *:* users:(("node_exporter",pid=18775,fd=3))
三、在Prometheus服务器上添加监控节点
[root@prometheus ~]# vim /usr/local/prometheus/prometheus.yml
scrape_configs:
... ...
- job_name: "web1-hw"
static_configs:
- targets: ["192.168.88.100:9100"]
[root@prometheus ~]# systemctl restart prometheus.service
四、查看控制台
1、查看监控主机状态
2、查看监控数据
Grafana
一、部署
[root@prometheus ~]# yum install -y https://dl.grafana.com/enterprise/release/grafana-enterprise-9.3.2-1.x86_64.rpm
[root@prometheus ~]# systemctl enable grafana-server.service --now
[root@prometheus ~]# ss -ntulp | grep 3000
tcp LISTEN 0 128 *:3000 *:* users:(("grafana-server",pid=2586,fd=11))
二、访问
初始用户名和密码都是admin。第一次登陆时,要求改密码
偏好设置
添加数据源(有数据才能生成图形)
导入dashboards模板
主机监控的图形
一、导入图形模板
二、数据源选择Prometheus的数据源
三、查看主机数据图
监控数据库
一、安装软件
[root@web1 ~]# yum -y install mysql-server
[root@web1 ~]# systemctl enable mysqld --now
二、配置数据库账户和密码
[root@web1 ~]# mysql
mysql> create user testuser@localhost identified by '123456';
mysql> grant all privileges on *.* to testuser@localhost;
mysql> flush privileges;
mysql> quit
三、安装数据库exporter
安装exporter,创建访问数据库的账户密码配置文件
# 安装exporter
[root@web1 ~]# tar -xf mysqld_exporter-0.14.0.linux-amd64.tar.gz
[root@web1 ~]# mv mysqld_exporter-0.14.0.linux-amd64 /usr/local/mysqld_exporter
# 编写用于连接mysql服务的配置文件
[root@web1 ~]# vim /usr/local/mysqld_exporter/.my.cnf
[client]
host=127.0.0.1
port=3306
user=testuser
password=123456
# 创建service文件
[root@web1 ~]# vim /usr/lib/systemd/system/mysqld_exporter.service
[Unit]
Description=mysqld_export
After=network.target
[Service]
ExecStart=/usr/local/mysqld_exporter/mysqld_exporter --config.my-cnf=/usr/local/mysqld_exporter/.my.cnf
[Install]
WantedBy=multi-user.target
[root@web1 ~]# systemctl daemon-reload
[root@web1 ~]# systemctl start mysqld_exporter.service
[root@web1 ~]# ^start^enable
[root@web1 ~]# ss -ntulp | grep mysqld_exporter
tcp LISTEN 0 128 *:9104 *:* users:(("mysqld_exporter",pid=4689,fd=3))
四、修改Prometheus配置
修改主配置文件
[root@prometheus ~]# vim /usr/local/prometheus/prometheus.yml
... ...
- job_name: "mysql"
static_configs:
- targets: ["192.168.88.100:9104"]
[root@prometheus ~]# systemctl restart prometheus.service
五、查看监控主机
六、导入数据库可视化模块
自动发现和告警
一、自动发现
1、基于文件自动发现
file_sd_configs实现文件级别的自动发现
使用文件自动发现功能后,Prometheus会定期检查配置文件是否有更新
如果有更新的话就将新加入的节点接入监控,服务端无需重启服务
2、修改Prometheus使用自动发现
# 备份现有配置文件
[root@prometheus ~]# cp /usr/local/prometheus/prometheus.yml /usr/local/prometheus/prometheus.yml.bak
# 修改配置文件,删除静态配置,添加自动发现配置
[root@prometheus ~]# vim /usr/local/prometheus/prometheus.yml
scrape_configs:
- job_name: "prometheus"
file_sd_configs:
- refresh_interval: 120s
files:
- /usr/local/prometheus/sd_config/*.yml
# 重启服务
[root@prometheus ~]# systemctl restart prometheus.service
3、web中将没有任何监控项目
4、创建自动发现规则文件
[root@prometheus ~]# mkdir /usr/local/prometheus/sd_config
- targets:
- 192.168.88.5:9090
- 192.168.88.100:9100
- 192.168.88.100:9104
[root@prometheus ~]# vim /usr/local/prometheus/sd_config/discovery.yml
5、查看结果
Alertmanager
一、概述
Prometheus服务器中的告警规则向Alertmanager发送告警,然后,Alertmanager管理这些告警,包括静默、抑制、分组以及通过电子邮件、即时消息系统和聊天平台等方法发出通知
二、告警和通知主要步骤
设置和配置Alertmanager
配置Prometheus与Alertmanager对接
在Prometheus中创建告警规则
三、告警规则构成
告警名称:用户需要为告警规则命名
告警规则:告警规则实际上主要由PromQL进行定义,其实际意义是当表达式(PromQL)查询结果持续多长时间(During)后发出告警
四、Alertmanager特性
Alertmanager处理客户端应用程序(如Prometheus服务器)发送的警报。它负责重复数据删除、分组,并将其路由到正确的接收方集成
分组:分组将性质相似的警告分类到单个通知中。这在较大的停机期间特别有用,此时许多系统同时发生故障,数百到数千个警告可能同时发生
抑制:抑制是当某一告警发出后,可以停止重复发送由此告警引发的其它告警的机制
静默提供了一个简单的机制可以快速根据标签对告警进行静默处理。如果接收到的告警符合静默的配置,Alertmanager则不会发送告警通知。静默设置需要在Alertmanager的Web页面上进行设置
五、Alertmanager部署
[root@prometheus ~]# tar -xf alertmanager-0.25.0.linux-amd64.tar.gz
[root@prometheus ~]# mv alertmanager-0.25.0.linux-amd64 /usr/local/alertmanager
[root@prometheus ~]# vim /usr/lib/systemd/system/alertmanager.service
[Unit]
Description=alertmanager System
[Service]
ExecStart=/usr/local/alertmanager/alertmanager --config.file=/usr/local/alertmanager/alertmanager.yml
[Install]
WantedBy=multi-user.target
[root@prometheus ~]# systemctl daemon-reload
[root@prometheus ~]# systemctl enable alertmanager.service --now
[root@prometheus ~]# ss -ntulp | grep 9093
tcp LISTEN 0 128 *:9093 *:* users:(("alertmanager",pid=1273,fd=8))
六、访问
http://192.168.88.5:9093/#/alerts
七、配置文件构成
Alertmanager的配置主要包括两个部分:路由(route)以及接收器(receivers)。所有的告警信息都会从配置中的顶级路由(route)进入路由树,根据路由规则将告警信息发送给相应的接收器
在Alertmanager中可以定义一组接收器
目前配置文件中只设置了一个顶级路由route并且定义的接收器为default-receiver
因此在Alertmanager配置中一般会包含以下几个主要部分:
---全局配置(global):用于定义一些全局的公共参数
---模板(templates):用于定义告警通知时的模板
---告警路由(route):根据标签匹配,确定当前告警应该如何处理
---接收器(receivers):接收器是一个抽象的概念,它可以是一个邮箱也可以是一个微信,webhook等,接收器一般配合告警路由使用
---抑制规则(inhibit_rules):合理设置抑制规制可以减少垃圾告警的产生
八、与Prometheus对接
编辑Prometheus配置文件,修改alerting配置
[root@prometheus ~]# vim /usr/local/prometheus/prometheus.yml
alerting:
alertmanagers:
- static_configs:
- targets:
- localhost:9093
[root@prometheus ~]# systemctl restart prometheus.service
访问 http://192.168.88.5:9090/config
查看配置是否生效
九、配置Alertmanager通过邮件发送告警
# 备份配置文件
[root@prometheus ~]# cp /usr/local/alertmanager/alertmanager.yml /usr/local/alertmanager/alertmanager.yml.bak
# 修改配置文件
[root@prometheus ~]# vim /usr/local/alertmanager/alertmanager.yml
global:
smtp_from: 'test@admin.cn' # 发件人地址
smtp_smarthost: 'localhost:25' # 邮件服务器地址
smtp_require_tls: false # 是否使用TLS安全连接
route:
group_by: ['alertname']
group_wait: 30s
group_interval: 5m
repeat_interval: 1h
receiver: 'default-receiver' # 接收器
receivers:
- name: 'default-receiver' # 配置接收器为邮件
email_configs:
- to: 'root@localhost.localdomain'
inhibit_rules:
- source_match:
severity: 'critical'
target_match:
severity: 'warning'
equal: ['alertname', 'dev', 'instance']
# 定义告警规则
[root@prometheus ~]# mkdir /usr/local/prometheus/rules
[root@prometheus ~]# vim /usr/local/prometheus/rules/hoststats-alert.rules
groups:
- name: example
rules:
- alert: InstanceDown
expr: up == 0
for: 5m
labels:
severity: warn
annotations:
summary: "Instance {{ $labels.instance }} down"
description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes."
- alert: hostMemUsageAlert
expr: (node_memory_MemTotal - node_memory_MemAvailable)/node_memory_MemTotal > 0.85
for: 1m
labels:
severity: warn
annotations:
summary: "Instance {{ $labels.instance }} MEM usgae high"
# 在Prometheus中声明规则文件位置
[root@prometheus ~]# vim /usr/local/prometheus/prometheus.yml
...略...
15 rule_files:
16 - /usr/local/prometheus/rules/*.rules
...略...
# 重启服务
[root@prometheus ~]# systemctl restart alertmanager.service
[root@prometheus ~]# systemctl restart prometheus.service
# 安装并启动邮件服务
[root@prometheus ~]# yum install -y postfix mailx
[root@prometheus ~]# systemctl enable postfix --now
查看加载的规则文件
测试告警
# 将web1关机
[root@web1 ~]# poweroff
# 查看邮件
[root@prometheus ~]# mail
Heirloom Mail version 12.5 7/5/10. Type ? for help.
"/var/spool/mail/root": 1 message 1 new
>N 1 test@admin.cn Wed Mar 27 16:56 263/12896 "[FIRING:2] Instanc"
& 1
Message 1:
... ...
Subject: [FIRING:2] InstanceDown (prometheus warn)
... ...
将告警邮件内容从【<!DOCTYPE ...
】这一行到【</html>
】复制,粘贴到一个文件中,如文件名为alert.html
,用firefox打开,可以得到以下页面:
查看Alertmanager