最近运维的同事说很多设备一会儿就出现主机宕机的报警,然后马上又好了,邮件是满天飞,我说配置里面设置了三次重试判断才报警的,为什么会出现这种情况呢???? 于是开始debug了。。。。。。
平台是采用分布式结构的。
为什么分布式才送一条消息过来这边就hard 1
没道理啊,应该是soft 1,soft2 然后才是hard3。相同的配置,当吧passive check disable,
把active check enable后,一切又恢复正常,这是为什么呢?
相同的实验我在service check上做了,发现service 在active check 和passive check模式都是正常的,
难道这个host check出现什么问题了,各种调试,各种比较,就差去看代码怎么写的了。
后来终于在一个不起眼的地方看到这段说明。
改完以后还真是这个问题,完美解决!!!!!太角落了,找都找不到。。。。。
link:http://nagios.sourceforge.net/docs/3_0/passivechecks.html