zabbix通过agent.ping一直误报的问题

agent.ping在大量机器的情况下,一直误报。

  • 具体体现为:
    大批主机出现告警,不一会就又自动恢复了,导致真正有问题的主机混在其中无法及时发现。

  • 经过分析:
    有数据库insert慢影响的因素,导致监控的数据还未落库,此时触发器查不到值,就会触发nodata告警(如每2m agent主动上报一次数据,10:00:00 Up (1)数据已到,但10:00:02数据经观察,实际是在系统10:00:08才落库,显示在最新数据里是10:00:02 Up (1),由于查看数据是正确的,导致很容易迷惑查找出问题原因)。

  • 解决:
    观察最新数据的agent.ping值,总结上下两次监控数据实际落表的时间间隔(或从数据库里sql查看)。可以优化{agent.ping.nodata(10m)}=1的间隔时间,尽量避过插入间隔时间。此外,减少agent.ping监控历史数据保留时间,减少数据库数据量,也是加快监控数据落表的一个优化。

写在最后,zabbix 的mysql数据库对于大批量主机监控,感觉还是有瓶颈的,机器少的时候还好,量大了数据库的限制就体现出来。欢迎小伙伴们一起分享经验,讨论如何解决这个问题。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值