1、自己看日志
2、例子
注:/usr/local/nagios/libexec下的文件必须赋于可执行权限,否刚监控端无法获取到返回数据;对于被监控端报警阀值的更改必须重新启动nrpe进程,否刚不生效。
例1、command[check_users]=/usr/local/nagios/libexec/check_users-w 5 -c 10
定义登录用户数检测,当用户数达到5个,发送“WARNING”级别的告警;当用户数达到10个,发送“CRITICAL”级别的告警。
例2:command[check_load]=/usr/local/nagios/libexec/check_load-w 15,10,5 -c 30,25,20
定义系统负载报警阀值,当五分钟负载 、10分钟负载、15分钟负载其中之一达到15,10,5的值就会发送“WARNING”级别的告警;当五分钟负载、10分钟负载、15分钟负载其中之一达到30,25,20的值就会发送“CRITICAL”级别的告警。
例3:command[check_disk]=/usr/local/nagios/libexec/check_disk-w 15% -c 10%
定义磁盘报警阀值,当磁盘分区使用率达85%时,发送“WARNING”级别的告警;当磁盘分区空闲率达90%时,发送“CRITICAL”级别的告警。
例4:command[check_disk]=/usr/local/nagios/libexec/check_disk-w 25% -c 15% -p / -p /tmp -p /home -p /usr
自定义磁盘分区监控,其它同上。
例4:command[check_mem]=/usr/local/nagios/libexec/check_mem.sh-w 15 -c 10
定义内存使用率报警阀值,当内存使用率达到85%时,发送“WARNING”级别的告警;当内存使用率达到90%时,发送“CRITICAL”级别的告警。
例5:command[check_cpu]=/usr/local/nagios/libexec/check_cpu.sh-w 80% -c 90%
定义CPU使用率报警阀值,当总的CPU使用率达到80%时,发送“WARNING”级别的告警;当总的CPU使用率达到90%时,发送“CRITICAL”级别的告警。
例6:command[check_uptime]=/usr/local/nagios/libexec/check_uptime.sh
定义系统启动时间
例6:command[check_swap]=/usr/local/nagios/libexec/check_swap-w 85% -c 80%
定义交换分区使用率报警阀值,当交换分区使用率达到15%时,发送“WARNING”级别的告警;当交换分区使用率达到20%时,发送“CRITICAL”级别的告警。
例7:command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs-w 5 -c 10 -s Z
定义僵尸进程报警阀值,当僵尸进程数达到5个时,发送“WARNING”级别的告警;当僵尸进程数达到10个时,发送“CRITICAL”级别的告警。
例8:command[check_total_procs]=/usr/local/nagios/libexec/check_procs-w 420 -c 450
定义系统总的进程数报警阀值,当总进程数达到420个时,发送“WARNING”级别的告警;当总进程数达到450个时,发送“CRITICAL”级别的告警。此报警阀值请根据实际情况修改。
3、日常排错
问题1:从监控端使用命令 ./check_nrpe -n -H client_ip-c check_mem -a 20 15,报“CHECK_NRPE: Received 0 bytesfrom daemon. Check the remote serverlogs for error messages.”错误
- 处理过程:重新编译安装nrpe带这个参数--enable-command-args ; make all ;make install #####allows clients to specify command arguments. *** THIS IS A SECURITY RISK! *** Read the SECURITY file before using this option!
- /usr/local/nagios/etc/nrpe.cfg:dont_blame_nrpe=1#打开参数传递
- 再次测试可正常返回数据
- 问题2:从监控端使用命令 ./check_nrpe -n -H client_ip -c check_mem -a 20 15,报“CHECK_NRPE: Error– Could not complete SSL handshake”错误
- 处理过程:/etc/xinetd.d/nrpe文件中要添加允许访问的服务器的IP地址,你没有添加.在“only_from = ”这一行添加,多个IP地址用空格隔开,例如: only_from = server_ip
- 然后重启服务:
- service xinetd restart
- 如果此时你在Nagios服务器端检测被监控端:
- ./check_nrpe -H client_ip
- 返回:
- NRPE v2.12
- 则说明好了
- 问题3:从监控端使用命令 ./check_nrpe -n -H client_ip -c check_mem -a 20 15,报“NRPE: Unable to read output”错误
- 处理过程:1、检查客户端nrpe的权限是否可读,可被nagios执行。
- 2、检查nrpe.cfg里面commands命令路径是否正确。
Check_cpu.sh
报错
UNKNOWN: iostat not found or is not executable bythe nagios user
解决方法:
# yum -y install sysstat
若已安装,则确定check_cpu.sh属主是否为nagios.nagios