自从上了Prometheus,睡觉真香!


文章来源:https://c1n.cn/ojbYT

目录

  • 学习目标

  • 任务背景

  • 任务要求

  • 任务分析

  • Prometheus 实战

学习目标

如下:

  • 能够安装 prometheus 服务器

  • 能够通过安装 node_exporter 监控远程 linux

  • 能够通过安装 mysqld_exporter 监控远程 mysql 数据库

  • 能够安装 grafana

  • 能够在 grafana 添加 prometheus 数据源

  • 能够在 grafana 添加监控 cpu 负载的图形

  • 能够在 grafana 图形显示 mysql 监控数据

  • 能够通过 grafana+onealert 实现报警

任务背景

某某某公司是一家电商网站,由于公司的业务快速发展,公司要求对现有机器进行业务监控,责成运维部门来实施这个项目。

任务要求

如下:

  • 部署监控服务器,实现 7x24 实时监控

  • 针对公司的业务及研发部门设计监控系统,对监控项和触发器拿出合理意见

  • 做好问题预警机制,对可能出现的问题要及时告警并形成严格的处理机制

  • 做好监控告警系统,要求可以实现告警分级,一级报警:电话通知;二级报警:微信通知;三级报警:邮件通知

  • 处理好公司服务器异地集中监控问题,K8S 内部使用的监控系统就是普罗米修斯

任务分析

为什么要监控?答:实时收集数据,通过报警及时发现问题,及时处理。数据为优化也可以提供依据。

监控四要素:

  • 监控对象 [主机状态 服务 资源 页面,url]

  • 用什么监控 [zabbix-server zabbix-agent] => 普罗米修斯监控

  • 什么时间监控 [7x24 5x8]

  • 报警给谁 [管理员]

Prometheus 实战

| Prometheus 概述

Prometheus(由 go 语言开发)是一套开源的监控&报警&时间序列数据库的组合。适合监控 docker 容器。因为 kubernetes 的流行带动了 prometheus 的发展。

https://prometheus.io/docs/introduction/overview/
| 时间序列数据

①什么是序列数据

时间序列数据(TimeSeries Data):按照时间顺序记录系统、设备状态变化的数据被称为时序数据。

应用的场景很多,如:

  • 无人驾驶车辆运行中要记录的经度,纬度,速度,方向,旁边物体的距离等等。每时每刻都要将数据记录下来做分析。

  • 某一个地区的各车辆的行驶轨迹数据

  • 传统证券行业实时交易数据

  • 实时运维监控数据等

②时间序列数据特点

性能好:关系型数据库对于大规模数据的处理性能糟糕。NOSQL 可以比较好的处理大规模数据,让依然比不上时间序列数据库。

存储成本低:高效的压缩算法,节省存储空间,有效降低 IO。

Prometheus 有着非常高效的时间序列数据存储方法,每个采样数据仅仅占用 3.5byte 左右空间,上百万条时间序列,30 秒间隔,保留 60 天,大概花了 200 多 G(来自官方数据)。

③Prometheus 的主要特征

如下:

  • 多维度数据模型

  • 灵活的查询语言

  • 不依赖分布式存储,单个服务器节点是自主的

  • 以 HTTP 方式,通过 pull 模型拉去时间序列数据

  • 也可以通过中间网关支持 push 模型

  • 通过服务发现或者静态配置,来发现目标服务对象

  • 支持多种多样的图表和界面展示

④普罗米修斯架构原理

如下图:

efcd193dec641bd79d344ee54a8e9b3d.png

| 实验环境准备

7a7ca5b39bcd3200743027f84afd2c0d.png

1️⃣静态 ip(要求能上外网)

2️⃣主机名

cc8e4ba4349e2923e5515795044718ab.png

3️⃣时间同步(时间同步一定要确认一下)

4️⃣关闭防火墙,selinux

781f2ff9b6070c27639ff9abe6206a87.png

①安装 prometheus

从官网下载相应版本,安装到服务器上:

https://prometheus.io/download/

官网提供的是二进制版,解压就能用,不需要编译。

e51698404438c91c2223c3430f0c467f.png

②Prometheus 界面

通过浏览器访问 http:// 服务器 IP:9090 就可以访问到 Prometheus 的主界面:

57cedcceaf8ba04ee7914bbb9910e362.png

默认只监控了本机一台,点 Status→点 Targets→可以看到只监控了本机:

985f59f8b779793fcb05cf6bb28895b1.png

③主机数据展示

通过 http:// 服务器 IP:9090/metrics 可以查看到监控的数据:

da6451705019c6f3fb12f39bbaa8e742.png

在 web 主界面可以通过关键字查询监控项:

6f7ba3c2af8b12d6f50dbb492012fed2.png

④监控远程 Linux 主机

在远程 linux 主机(被监控端 agent1)上安装 node_exporter 组件。

下载地址:

https://prometheus.io/download/

8d79060d43bf6322674aa495a944deb0.png

扩展:nohup 命令。如果把启动 node_exporter 的终端给关闭,那么进程也会随之关闭。nohup 命令会帮你解决这个问题。

通过浏览器访问 http:// 被监控端 IP:9100/metrics 就可以查看到 node_exporter 在被监控端收集的监控信息:

67ba579430b961476f1a474faec516a9.png

回到 Prometheus 服务器的配置文件里添加被监控机器的配置段:

154f512626c127db9e47e87af9aeeb71.png

回到 web 管理界面→点 Status→点 Targets→可以看到多了一台监控目标:

852a3aa651a79072214953d97077ce18.png

练习:加上本机 prometheus 的监控。答:在本机安装 node_exporter,也使用上面的方式监控起来。

⑤监控远程 MySQL

在被管理机 agent1 上安装 mysqld_exporter 组件:

a710cbb005400f56cc9cb169db67231c.png

75118de02c51537d70fa9b27e7b2da32.png

回到 Prometheus 服务器的配置文件里添加被监控的 mariadb 的配置段:

66fd5fdc9d52a29d7b48f1c99aee6538.png

回到 web 管理界面→点 Status→点 Targets→可以看到监控 mariadb 了:

d7d0b634c737c9bf4a2708c7d9c1d41b.png

c2ab2cac44d5a29400d27793332269d3.png

| Grafana 可视化图形工具

①什么是 Grafana

Grafana 是一个开源的度量分析和可视化工具,可以通过将采集的数据分析,查询,然后进行可视化的展示,并能实现报警。

e4c2f406850771a02fa2d7a9dfa19628.png

网址:

https://grafana.com/

②使用 Grafana 连接 Prometheus

在 grafana 服务器上安装 grafana,下载地址:

https://grafana.com/grafana/download

817b721d6908eb4420c1f09839be63af.png

通过浏览器访问 http:// grafana 服务器 IP:3000 就到了登录界面,使用默认的 admin 用户,admin 密码就可以登陆了。

4ee7af532d3fd5baed78ac6cbc6dfb94.png

下面我们把 Prometheus 服务器收集的数据做为一个数据源添加到 grafana,让 grafana 可以得到 Prometheus 的数据。

30331647dd12510eed42bc965192dc5a.png

1adc4de9099a4e185ab5875faced2dde.png

ba0a260f3f056061d2f6fa32e0f86e5f.png

b876800fdb0b328eee373d4c3a107c4b.png

然后为添加好的数据源做图形显示:

f54a7bbc98679c0052233059fe569117.png

850d5b9cf30cf2ec91a5fdc8c883843c.png

7386e270fdef7840e95f00c34c656212.png

f6eb9d75faa3c84a33b43aee84663f60.png

点击保存:

f097766ab854df50b8a327dc1c5752ec.png

最后在 dashboard 可以查看到:

58b092b4a6152de2d8836c2a9fd1d7b8.png

匹配条件显示:

accf3383190f2ccb39b7e924bbf2294d.png

c7e2627fbad18e534acd39d24cc5d943.png

③Grafana 图形显示 MySQL 监控数据

在 grafana 上修改配置文件,并下载安装 mysql 监控的 dashboard(包含相关 json 文件,这些 json 文件可以看作是开发人员开发的一个监控模板)。

参考网址:

https://github.com/percona/grafana-dashboards

a99a810b7bc82bcd053a0b01a298cbe0.png

在 grafana 图形界面导入相关 json 文件:

480b524882904af782bc6971df5672cd.png

53a00c475bd335a5fe1ba76b13996ae1.png

点 import 导入后,报 prometheus 数据源找不到,因为这些 json 文件里默认要找的就是叫 Prometheus 的数据源,但我们前面建立的数据源却是叫 prometheus_data(坑啊)。

那么请自行把原来的 prometheus_data 源改名为 Prometheus 即可(注意:第一个字母 P 是大写)。

然后再回去刷新,就有数据了,如下图所示:

18fb4adb61c60c3eab5e67ad60edeaf0.png

过段时间再看,就会有数据了,如下图所示:

1a1ccbe7165c7993affabf18c70ca84a.png

④Grafana+onealert 报警

Prometheus 报警需要使用 alertmanager 这个组件,而且报警规则需要手动编写(对运维来说不友好)。所以我这里选用 grafana+onealert 报警。注意:实现报警前把所有机器时间同步再检查一遍。

先在 onealert 里添加 grafana 应用:

ccbd98e48d52a4afb2c5ee1e9622591a.png

a34e49974970cc7ed9ba976a395ebc38.png

配置通知策略:

a92f6a5103f1d80256444ab7f82f5c0d.png

在 grafana 增加通知通道:

ea8bf5aa8b13ba1b0ffc1944f756c967.png

ca54e8d5b1f18800d0e4daa9def42c08.png

f41f8dc331dc4667a1ae42a2d5e483f8.png

现在可以去设置一个报警来测试了(这里以我们前面加的 cpu 负载监控来做测试):

4c2c450ace5013416c8cae547254dafd.png

3a8d7bfe245ad14f263c761e184ffc5b.png

469a99735a74cd24494408f94eef7878.png

22a5906955c2ce06fce4f47a358c02a1.png

保存后就可以测试了,如果 agent1 上的 cpu 负载还没有到 0.5,你可以试试 0.1,或者运行一些程序把 agent1 负载调大。

最终能测试报警成功:

68ac585b5c6521ec932b1ebb51d8ce56.png

最终的邮件报警效果:

f31fee37ee2bbe9b3514b83c95bfc9e1.png

测试 MySQL 链接数报警:

bad0736a5c15dfd46210b3ac6fdcf58c.png

b27b2b6f2fc822670c20e0ba6cf15a2e.png

93adaa641fc13a22fa7b56745b0d8158.png

6df5d4d6f89da19f6106378f4b2263d0.png

b7864465eaab5a854cdbdb51130ba544.png

⑤总结报警不成功的可能原因

如下:

  • 各服务器之间时间不同步,这样时序数据会出问题,也会造成报警出问题

  • 必须写通知内容,留空内容是不会发报警的

  • 修改完报警配置后,记得要点右上角的保存

  • 保存配置后,需要由 OK 状态变为 alerting 状态才会报警(也就是说,你配置保存后,就已经是 alerting 状态是不会报警的)

  • grafana 与 onealert 通信有问题

-------------  END  -------------

扫码免费获取600+页石杉老师原创精品文章汇总PDF

f3770cb613071b51720ec0ca0e409241.png

ead4d9c3e00aa02214ce865f4a72c888.gif

原创技术文章汇总

dc7e66e8ece7767db17e293b1c7e768f.png

9b99fe62a2f0641091452f95d38d84aa.png

点个在看你最好看

327557e21ed8d5ea5543054a27c1ffba.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值