[Nagios] 故障报错处理

1、自己看日志

 

2、例子

注:/usr/local/nagios/libexec下的文件必须赋于可执行权限,否刚监控端无法获取到返回数据;对于被监控端报警阀值的更改必须重新启动nrpe进程,否刚不生效。

1command[check_users]=/usr/local/nagios/libexec/check_users-w 5 -c 10

定义登录用户数检测,当用户数达到5个,发送“WARNING”级别的告警;当用户数达到10个,发送“CRITICAL”级别的告警。

2command[check_load]=/usr/local/nagios/libexec/check_load-w 15,10,5 -c 30,25,20

定义系统负载报警阀值,当五分钟负载 、10分钟负载、15分钟负载其中之一达到15105的值就会发送“WARNING”级别的告警;当五分钟负载、10分钟负载、15分钟负载其中之一达到302520的值就会发送“CRITICAL”级别的告警。

3command[check_disk]=/usr/local/nagios/libexec/check_disk-w 15% -c 10%

定义磁盘报警阀值,当磁盘分区使用率达85%时,发送“WARNING”级别的告警;当磁盘分区空闲率达90%时,发送“CRITICAL”级别的告警。

4command[check_disk]=/usr/local/nagios/libexec/check_disk-w 25% -c 15% -p / -p /tmp -p /home -p /usr

自定义磁盘分区监控,其它同上。

4command[check_mem]=/usr/local/nagios/libexec/check_mem.sh-w 15 -c 10

定义内存使用率报警阀值,当内存使用率达到85%时,发送“WARNING”级别的告警;当内存使用率达到90%时,发送“CRITICAL”级别的告警。

5command[check_cpu]=/usr/local/nagios/libexec/check_cpu.sh-w 80% -c 90%

定义CPU使用率报警阀值,当总的CPU使用率达到80%时,发送“WARNING”级别的告警;当总的CPU使用率达到90%时,发送“CRITICAL”级别的告警。

6command[check_uptime]=/usr/local/nagios/libexec/check_uptime.sh

定义系统启动时间

6command[check_swap]=/usr/local/nagios/libexec/check_swap-w 85% -c 80%

定义交换分区使用率报警阀值,当交换分区使用率达到15%时,发送“WARNING”级别的告警;当交换分区使用率达到20%时,发送“CRITICAL”级别的告警。

7command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs-w 5 -c 10 -s Z

定义僵尸进程报警阀值,当僵尸进程数达到5个时,发送“WARNING”级别的告警;当僵尸进程数达到10个时,发送“CRITICAL”级别的告警。

8command[check_total_procs]=/usr/local/nagios/libexec/check_procs-w 420 -c 450

定义系统总的进程数报警阀值,当总进程数达到420个时,发送“WARNING”级别的告警;当总进程数达到450个时,发送“CRITICAL”级别的告警。此报警阀值请根据实际情况修改。

 

3、日常排错

问题1:从监控端使用命令 ./check_nrpe -n -H client_ip-c check_mem -a 20 15,报“CHECK_NRPE: Received 0 bytesfrom daemon.  Check the remote serverlogs for error messages.”错误

  • 处理过程:重新编译安装nrpe带这个参数--enable-command-args ; make all ;make install    #####allows clients to specify command arguments.  *** THIS IS A SECURITY RISK! *** Read the SECURITY file before using this option!
  • /usr/local/nagios/etc/nrpe.cfgdont_blame_nrpe=1#打开参数传递
  • 再次测试可正常返回数据
  •  
  •  
  • 问题2:从监控端使用命令 ./check_nrpe -n -H client_ip -c check_mem -a 20 15,报“CHECK_NRPE: Error Could not complete SSL handshake”错误
  • 处理过程:/etc/xinetd.d/nrpe文件中要添加允许访问的服务器的IP地址,你没有添加.在“only_from = ”这一行添加,多个IP地址用空格隔开,例如:   only_from = server_ip
  • 然后重启服务:
  •    service xinetd restart
  •   如果此时你在Nagios服务器端检测被监控端:
  •    ./check_nrpe -H client_ip
  •   返回:
  •    NRPE v2.12
  •   则说明好了

 

  • 问题3:从监控端使用命令 ./check_nrpe -n -H client_ip -c check_mem -a 20 15,报“NRPE: Unable to read output”错误
  • 处理过程:1、检查客户端nrpe的权限是否可读,可被nagios执行。
  •                   2、检查nrpe.cfg里面commands命令路径是否正确。

  •  

Check_cpu.sh

报错

UNKNOWN: iostat not found or is not executable bythe nagios user

解决方法:



# yum -y install sysstat

若已安装,则确定check_cpu.sh属主是否为nagios.nagios




  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值