注意:本文档需要对照官方文档来看(下一行),官方文档提供了标准步骤,本文章只是用来做补充说明。
参考官方文档:Nacos 监控手册
Grafana文档:Installation - 《Grafana v6.2 Documentation》 - 书栈网 · BookStack
Grafana官网:Grafana® Features | Grafana Labs
1.搭建nacos集群,并暴露metrics数据
重启即可,按照官方文档操作,需要验证一下是否成功。
需要打开:
http://192.168.0.223:8850/nacos/actuator/prometheus
验证是否有数据
2.搭建prometheus用来采集数据
注意点1,需要下载的版本是
注意点2,配置文件的格式有缩进之类的问题,nacos文档在这里没有强调,所以可能会配置的有问题,prometheus.yml这样配置:
启动:prometheus.exe --config.file=prometheus.yml
验证时,注意选择execute后边有个下拉框
验证网址:http://192.168.0.223:9090/graph
3.搭建grafana图形化显示数据,注意前边的prometheus是exe程序,使用cmd命令行来控制,grafana是一个服务,在系统的服务中启动关闭。
注意1:需要先添加Data Source,然后后边才能加载nacos的json配置。否则nacos的配置没法找到数据。
注意2:使用import添加的模板,官方文档给的并不好用,后来在其他地方找了一个。
可用的下载地址是grafana官方的模板下载地址中找的。
Nacos dashboard for Grafana | Grafana Labs
效果如下
默认用户名密码 admin admin
4.添加异常通知,尝试了邮件没成功,钉钉配置测试通过。
注意钉钉那边因为版本更迭,和文档说的配置已经完全对不上了。需要自己建一个群,然后在群里边添加一个机器人,这个机器人就负责接收这边的报警通知。因为机器人有安全设置,我们这个测试的数据必须至少满足其中一个才能发过来,我就给加了一个[作为关键字,其他的因为实现起来需要更麻烦,目前只是测试。
添加机器人说明:
因为数据中有[,恰好可以发过来。
cpu过载报警
参考资料
Nacos监控Prometheus Grafana_Jak的博客-CSDN博客_prometheus监控nacos