关于nagios故障两例的解决办法

案例一:

nagios监控本机时,只有http不正常,监控远程主机时,全部显示‘Return code 127 is out of bounds - plugin may be missing’的错误,重装了nagios问题依旧,如图

spacer.gif

解决思路:1.防火墙对远程nrpe端口5666的限制:这个原因不现实,因为nagios服务器的iptables没有开启,排除;

                  2.系统是否少安装了nagios所需的软件包:结合网上教程以及nagios官网的说明,全部软件包已经安装上了,排除;

                  3.配置文件以及权限问题:查看了 几次配置问题,以及利用虚拟机环境,配置均无问题,那就只剩下权限问题了,

操作现象:安装nagios以及插件均是使用root用户,尽管已经执行了chmod -R 755 nagios/和chown -R nagios.nagios nagios/ ,但是安装、执行、写配置、添主机,都是使用root用户权限,权限太大,所以有一些问题被我们忽视了,当我切换到nagios用户时,到libexec目录下执行./check_nrpe -H 远程IP时,出现问题了:提示找不到libssl.so.1.0.0和libcrypto.so.1.0.0这两个文件,

解决办法:使用命令ldd check_nrpe,查看命令的共享库链接文件

使用root用户查找系统中有没有这两个问题,有就直接cp到/lib64/下

cp /usr/local/openssl/lib/libcrypto.so.1.0.0 /lib64/

cp /usr/local/openssl/lib/libssl.so.1.0.0 /lib64/

没有就得安装openssl软件包了,

再修改这个两个文件的权限,我这里直接给777。

chmod 777  /lib64/libssl.so.1.0.0

chmod 777  /lib64/libcrypto.so.1.0.0

问题解决。

问题总结:当我们部署某一个工程时,要有专门的管理账户以及足够的权限,不要轻易使用root账户,因为权限太大不好控制,而且容易出错,我这里犯了这个错误。


 

案例二:除localhost外,其他远程主机均显示“PENDING”状态,点击进去服务却是正常的,如图

spacer.gif

解决办法:在host的配置文件中,在定义host中加入如下一行

spacer.gif

重启nagios,问题解决。