一:nagios启动的时候出错,显示是配置文件的错误。但是又没有显示哪一行出错,那么用以下的方法 :
>查看nagios启动脚本
case "$1" in
start)
echo -n "Starting nagios:"
$NagiosBin -v $NagiosCfgFile > /dev/null 2>&1;
if [ $? -eq 0 ]; then
su - $NagiosUser -c "touch $NagiosVarDir/nagios.log $NagiosRetentionFile"
rm -f $NagiosCommandFile
touch $NagiosRunFile
chown $NagiosUser:$NagiosGroup $NagiosRunFile
$NagiosBin -d $NagiosCfgFile
if [ -d $NagiosLockDir ]; then touch $NagiosLockDir/$NagiosLockFile; fi
echo " done."
chmod -R a+rw $NagiosVarDir/rw/
exit 0
else
echo "CONFIG ERROR! Start aborted. Check your Nagios configuration."
exit 1
fi
;;
根据nagios启动时的报错信息“CONFIG ERROR! Start aborted. Check your Nagios configuration.”,说明在nagios执行过程中,/usr/bin/nagios -v /etc/nagios/nagios.cfg是错误的,去掉> /dev/null 2>&1; 然后重新启动
最后会显示哪一行出错,最后具体自己再做修改。
二:
解决:打开 nrpe 的配置文件找到 check_total_procs 这个定义 修改一下 -w 警告数值 -c 临界数值 即可。
三:
CHECK_NRPE: Socket timeout after 10 seconds.
意思就是说, nrpe 进程执行某些脚本超过了10秒钟,就会发警报
解决方法:
修改配置文件,把NRPE的时间调整到30s
define command{
command_name check_nrpe
command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ -t 30 # 加上一个 -t 30 指定时间为 30 秒
}
然后需要重新启动下 nagios 和web服务
如果问题还没有解决,则
1.vi commands.cfg ---> command_line /usr/local/nagios/libexec/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ -t 60 (默认命令后面加:-t 60)
2.vi nrpe.cfg ---> command_timeout=60
3. 使用命令测试。---> ./check_nrpe -H 192.168.1.203 -c check_tomcat_mem -t 30 (使用命令时后面加:-t 30)