起因,刚刚部署好的zookeeper。用户反馈说监控看不到指标了。
- Zookeeper监控告警export指标采集不到排查结果。
- grafana显示集群指标无数据
3.需要在普罗米修斯上查询组件节点使用是否注册(up{job=“component”,compType=“zookeeper”})发现注册成功。
4.已经注册,但是通过prometheus也查询不到zk的各项指标,我们只能使用命令到主机上curl一下监控的端口,看看有没有指标返回(Curl 10.0.0.200:40054/metrics 返回结果复制出来)(zk监控主机ip,监控端口,监控路径)实质上curl的结果就是我们export采集的结果也是我们grafana展示的结果。
5.将curl的内容和我下面截图的grafana指标对比能对比curl里面有采集到了指标说明zk没问题,对比不到说明没有采集到结果。
6.采集不到,我们要去查一下原因ps -ef|grep zookeeper找到用户的zk。找到export存放日志路劲,进入后查询日志返回结果。发现日志打印结果(报错内容:Fetching metric from zookeeper. Reseching Zookeeper statistics.Unexpected format of resturned data, expected tab-seoarated key/value.mntr is not executed because it is not in the whitelist.)。
7.根据报错显示,采集不到的原因是因为,zk禁用了4字命令。
8.测试环境测试发现,在zk的conf文件下面添加41w.commands.whitelist=*,监控指标恢复。
9.重启zk就可以了。