在Nginx中搭建Nagios监控平台

最新推荐文章于 2021-11-24 10:15:50 发布

weixin_30729609

最新推荐文章于 2021-11-24 10:15:50 发布

阅读量214

点赞数

文章标签： php 操作系统网络

原文链接：http://www.cnblogs.com/xiongmaolinux/p/5359716.html

版权

本文只做Nginx下Nagiox安装的说明，其它关于Nagios监控的详细配置请参考我的另一篇文章[Ubuntu 10.04下构建Nagios监控平台]

Nagios依赖PHP环境和perl环境。由于Nginx不支持Perl的CGI,这里就需要先来搭建Perl环境。

一、给Nginx加上对Perl的CGI支持

让Nginx支持Perl的CGI方法有好几种，基本原理都是通过Perl的FCGI模块实现。具体哪一个更好，目前没时间验证。下面的方法就是其中一种：

1、安装FCGI模块

wget http://search.cpan.org/CPAN/authors/id/F/FL/FLORA/FCGI-0.73.tar.gz

tar xvzf FCGI-0.73.tar.gz

cd FCGI-0.73

perl Makefile.PL

make

make install

cd ..

2、安装FCGI-ProcManager模块

wget http://search.cpan.org/CPAN/authors/id/G/GB/GBJK/FCGI-ProcManager-0.19.tar.gz

tar xvzf FCGI-ProcManager-0.19.tar.gz

cd FCGI-ProcManager-0.19

perl Makefile.PL

make

make install

cd ..

3、安装IO和IO::ALL模块

wget http://search.cpan.org/CPAN/authors/id/G/GB/GBARR/IO-1.25.tar.gz

tar zxvf IO-1.25.tar.gz

cd IO-1.25

perl Makefile.PL

make

make install

cd ..

wget http://search.cpan.org/CPAN/authors/id/I/IN/INGY/IO-All-0.41.tar.gz

tar zxvf IO-All-0.41.tar.gz

cd IO-All-0.41

perl Makefile.PL

make

make install

cd ..

4、下载Perl脚本

这个脚本的目的就是产生一个PERL的FastCGI接口，让Nginx可以以CGI方式处理Perl。

wget http://www.mike.org.cn/wp-content/uploads/2011/07/perl-fcgi.zip

unzip perl-fcgi.zip

cp perl-fcgi.pl /usr/local/webserver/nginx/

注：建议把这个脚本放在Nginx安装目录。

修改脚本权限

1	chmod 755 /usr/local/webserver/nginx/perl-fcgi.pl

5、建立一个CGI启动/停止脚本

这个SHELL脚本只是为了方便管理上面的Perl脚本。脚本中的www为nginx的运行用户，请据自己的实际情况调整。

注意事项：不能用root用户执行(会提示). 要用与Nginx相同身份的用户执行。否则可能会在Nginx Log中提示 Permision Denied。

vi /usr/local/webserver/nginx/start_perl_cgi.sh

#!/bin/bash

#set -x

dir=/usr/local/webserver/nginx/

stop ()

{

#pkill -f $dir/perl-fcgi.pl

kill $(cat $dir/logs/perl-fcgi.pid)

rm $dir/logs/perl-fcgi.pid 2>/dev/null

rm $dir/logs/perl-fcgi.sock 2>/dev/null

echo "stop perl-fcgi done"

}

start ()

{

rm $dir/now_start_perl_fcgi.sh 2>/dev/null

chown www-data.www-data $dir/logs

echo "$dir/perl-fcgi.pl -l $dir/logs/perl-fcgi.log -pid $dir/logs/perl-fcgi.pid -S
$dir/logs/perl-fcgi.sock" >>$dir/now_start_perl_fcgi.sh

chown www.www $dir/now_start_perl_fcgi.sh

chmod u+x $dir/now_start_perl_fcgi.sh

sudo -u www $dir/now_start_perl_fcgi.sh

echo "start perl-fcgi done"

}

case $1 in

stop)

stop

;;

start)

start

;;

restart)

stop

start

;;

esac

修改SHELL脚本权限

1	chmod 755 /usr/local/webserver/nginx/start_perl_cgi.sh

启动脚本

1	/usr/local/webserver/nginx/start_perl_cgi.sh start

正常情况下在/usr/local/webserver/nginx/logs下生成perl-fcgi.sock这个文件,如果没有生成,请检查下上面的步聚。
必须保证perl-fcgi.pl存在，执行start_perl_cgi.sh 才能执行成功最好用sudo执行

保证能正常使用在rc.local中加入启动 php功能模块组件还有启动peri_cgi支持模块

启动 php 功能模块
sudo /usr/local/php/sbin/php-fpm
启动peri_cgi支持模块
sudo /etc/nginx/start_perl_cgi.sh start

还需要启动 nginx 和nagios 不过这两个默认是随系统一起启动的

二、安装Nagios

A、安装前准备

安装的机器上必须有一个WEB服务，本文是在Nginx环境上安装的。

下载nagios主程序和相关插件程序包

wget http://prdownloads.sourceforge.net/sourceforge/nagios/nagios-3.2.3.tar.gz

wget http://prdownloads.sourceforge.net/sourceforge/nagiosplug/nagios-plugins-1.4.15.tar.gz

wget http://prdownloads.sourceforge.net/sourceforge/nagios/nrpe-2.12.tar.gz

安装GD库(Nagios中的statusmap和trends模块必须)

1	apt-get install libgd2-noxpm libgd2-noxpm-dev

B、Nagios监控端安装

1、创建Nagios用户及组

建立Nagios账号

1	/usr/sbin/useradd -m -s /sbin/nologin nagios

2、创建一个名为nagcmd的用户组，用于从web接口执行外部命令。将Nagios用户和Nginx用户加入组中。

groupadd nagcmd

usermod -a -G nagcmd nagios

usermod -a -G nagcmd www

注：上面的www是Nginx用户所属的组，如有不同请自行调整。

3、编译安装Nagios

tar zxvf nagios-3.2.3.tar.gz

cd nagios-3.2.3

./configure --with-command-group=nagcmd

make

make all

make install

make install-init

make install-config

make install-commandmode

#这里是在Nginx下运行Nagios,这一步就不用做了

make install-webconf

cd ..

注：

make install 用于安装主要的程序、CGI及HTML文件
make install-init 用于生成init启动脚本
make install-config 用于安装示例配置文件
make install-commandmode 用于设置相应的目录权限
make install-webconf 用于安装Apache配置文件

4、验证程序是否被正确安装

切换目录到安装路径，这里是/usr/local/nagios,看是否存在etc、bin、 sbin、 share、 var这五个目录，如果存在则可以表明程序被正确的安装到系统了。

1 2	ls /usr/local/nagios/ bin/ etc/ sbin/ share/ var/

注；bin–Nagios执行程序所在目录，其中的nagios文件即为主程序。
etc–Nagios配置文件位置
sbin–Nagios cgi文件所在目录，也就是执行外部命令所需文件所在的目录
Share–Nagios网页文件所在的目录
var–Nagios日志文件、spid 等文件所在的目录
var/archives–日志归档目录
var/rw–用来存放外部命令文件

5、配置NGINX

1)、配置Nagios Web界面登陆帐号及密码

1	htpasswd -c /usr/local/nagios/etc/nagiospasswd mike

如果你没有htpasswd(这个工具由Apache安装包所提供),可在线生成需要加密数据。

a)、访问http://www.4webhelp.net/us/password.php生成需要加密数据

b)、创建加密验证文件

vi /usr/local/nagios/etc/nagiospasswd

#加入生成的加密数据，冒号前是用户名，后面是加密后的密码

mike:25JB.R7mXY96o

修改Nagios配置文件，给新增的用户增加访问权限

vi /usr/local/nagios/etc/cgi.cfg

#以下几项中分别加入新增的用户，多用户用逗号分隔。

authorized_for_system_information=nagiosadmin,mike

authorized_for_configuration_information=nagiosadmin,mike

authorized_for_system_commands=nagiosadmin,mike

authorized_for_all_services=nagiosadmin,mike

authorized_for_all_hosts=nagiosadmin,mike

authorized_for_all_service_commands=nagiosadmin,mike

authorized_for_all_host_commands=nagiosadmin,mike

2)、修改NGINX配置，以支持WEB方式访问Nagios

正确：

server

{

listen 8008;

# server_name 192.168.1.108;

index index.html index.htm index.php;

root /usr/share/nginx/www;

# auth_basic "Nagios Access";

auth_basic_user_file /usr/local/nagios/etc/nagiospasswd;

location ~ .*\.(php|php5)?$ {

#root html;

fastcgi_pass 127.0.0.1:9000;

fastcgi_index index.php;

fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name;

include fastcgi_params;

}

location ~ .*\.(cgi|pl)?$ {

auth_basic "Nagios Access";

auth_basic_user_file /usr/local/nagios/etc/nagiospasswd;

gzip off;

root /usr/local/nagios/sbin; #这个目录下必须有ndex.cgi

rewrite ^/nagios/cgi-bin/(.*)\.cgi /$1.cgi break;

fastcgi_pass unix:/etc/nginx/logs/perl-fcgi.sock; #注意这文件路径要对

fastcgi_param SCRIPT_FILENAME /usr/local/nagios/sbin$fastcgi_script_name;

fastcgi_index index.cgi,index.pl;

fastcgi_param REMOTE_USER $remote_user;

fastcgi_param HTTP_ACCEPT_LANGUAGE en_US;

include fastcgi_params;

fastcgi_read_timeout 60;

include /etc/nginx/fastcgi_params; #这个目录也要注意

}

# log_format www '$remote_addr - $remote_user [$time_local] "$request" '

# '$status $body_bytes_sent "$http_referer" '

# '"$http_user_agent" $http_x_forwarded_for';

# access_log /etc/nginx/logs/access_www.log wwwlogs;

}

方法二：以http://ip/nagios方式访问

在WEB主目录下创建一个软链

1	ln -s /usr/local/nagios/share/ /data0/htdocs/www/nagios

NGINX配置片断如下

server

{

listen 80;

server_name 192.168.1.108;

index index.html index.htm index.php;

root /data0/htdocs/www;

auth_basic "Nagios Access";

auth_basic_user_file /usr/local/nagios/etc/nagiospasswd;

location ~ .*\.(php|php5)?$

{

#fastcgi_pass unix:/tmp/php-cgi.sock;

fastcgi_pass 127.0.0.1:9000;

fastcgi_index index.php;

include fcgi.conf;

}

location ~ .*\.(cgi|pl)?$

{

gzip off;

root /usr/local/nagios/sbin;

rewrite ^/nagios/cgi-bin/(.*)\.cgi /$1.cgi break;

fastcgi_pass unix:/usr/local/webserver/nginx/logs/perl-fcgi.sock;

fastcgi_param SCRIPT_FILENAME /usr/local/nagios/sbin$fastcgi_script_name;

fastcgi_index index.cgi;

fastcgi_read_timeout 60;

fastcgi_param REMOTE_USER $remote_user;

include fcgi.conf;

auth_basic "Nagios Access";

auth_basic_user_file /usr/local/nagios/etc/nagiospasswd;

}

log_format wwwlogs '$remote_addr - $remote_user [$time_local] "$request" '

'$status $body_bytes_sent "$http_referer" '

'"$http_user_agent" $http_x_forwarded_for';

access_log /data1/logs/access_www.log wwwlogs;

}

注：如果你的fastcgi的配置文件中没有配置REMOTE_USER参数，一定要在nginx.conf中加上下面这个fastcgi的参数定义。

1	fastcgi_param REMOTE_USER $remote_user;

如果没有这个fastcgi的参数定义，Nagios就不能正确验证你的登陆信息。网上大多数文章解决Nginx下Nagios登陆验证失败的方法都是在Nagios的cgi.cfg配置文件(nagios/etc/cgi.cfg)中关掉验证(use_authentication=0)或设置一个缺省的登陆用户(default_user_name=test)，这两种方法都是不安全的。

6、编译并安装Nagios插件

由于Nagios主程序只是提供一个运行框架，其具体监控是靠运行在其下的插件完成的，所以Nagios插件是必须安装的。

tar zxvf nagios-plugins-1.4.15.tar.gz

cd nagios-plugins-1.4.15

./configure --with-nagios-user=nagios --with-nagios-group=nagios

make

make install

验证Nagios插件是否正确安装

1	ls /usr/local/nagios/libexec

显示安装的插件文件,即所有的插件都安装在libexec这个目录下。

7、启动服务

启动前先检查下配置文件是否正确

1	/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

如果没有报错，可以启动Nagios服务

1	/usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg

查看Nagios运行状态

1	/usr/local/nagios/bin/nagiostats

8、安装NRPE

由于Nagios只能监测自己所在的主机的一些本地情况,例如，cpu负载、内存使用、硬盘使用等等。如果想要监测被监控的服务器上的这些本地情况，就要用到NRPE。NRPE(Nagios Remote Plugin Executor)是Nagios的一个扩展，它被用于被监控的服务器上，向Nagios监控平台提供该服务器的一些本地的情况。NRPE可以称为Nagios的Linux客户端。

由于NRPE是通过SSL方式在监控和被监控主机上进行数据传输的，所以必须先安装ssl相关的软件包。

1	apt-get install libssl-dev libssl0.9.8

编译安装NRPE

tar zxvf nrpe-2.12.tar.gz

cd nrpe-2.12

./configure
#checking for SSL libraries... configure: error: Cannot find ssl libraries . 解决：./configure --with-ssl-lib=/usr/lib/x86_64-linux-gnu ，原因是找不到 libssl.so文件

make all

make install-plugin
make install-daemon

make install-daemon-config

注：监控主机上只需要make install-plugin这一步就可以了。监控机上只要有一个check_nrpe插件用于连接被监控端nrpe的daemon就行了。发现不执行make install-daemon 和make install-daemon-config /usr/local/nagios/etc/目录下不会产生nrpe.cfg,就没有办法启动nrpe

安装xinetd
xinetd默认是已经安装好的如果没有需要 sudo apt-get install xinetd

cd nrpe-2.12
make install-xinetd
可以看到创建了这个文件/etc/xinetd.d/nrpe

vi /etc/xinetd.d/nrpe

# default: on

# description: NRPE (Nagios Remote Plugin Executor)

service nrpe

{

flags = REUSE

socket_type = stream

port = 5666

wait = no

user = nagios

group = nagios

server = /usr/local/nagios/bin/nrpe

server_args = -c /usr/local/nagios/etc/nrpe.cfg --inetd

log_on_failure += USERID

disable = no

only_from = 127.0.0.1在后面增加监控主机的地址0.111,以空格间隔

}

改后

only_from = 127.0.0.1 192.168.0.140

编辑/etc/services文件,增加NRPE服务

vi /etc/services

增加如下

# Local services

nrpe 5666/tcp # nrpe

重启xinetd服务

[root@dbpi nrpe-2.8.1]# service xinetd restart

Stopping xinetd: [ OK ]

Starting xinetd: [ OK ]

查看NRPE是否已经启动

[root@dbpi nrpe-2.8.1]# netstat -at|grep nrpe

tcp 0 0 *:nrpe *:* LISTEN

[root@dbpi nrpe-2.8.1]# netstat -an|grep 5666

tcp 0 0 0.0.0.0:5666 0.0.0.0:* LISTEN

可以看到5666端口已经在监听了

5.测试NRPE是否则正常工作

之前我们在安装了check_nrpe这个插件用于测试,现在就是用的时候.执行

/usr/local/nagios/libexec/check_nrpe -H localhost

会返回当前NRPE的版本

[root@dbpi nrpe-2.8.1]# /usr/local/nagios/libexec/check_nrpe -H localhost

NRPE v2.8.1

也就是在本地用check_nrpe连接nrpe daemon是正常的

注:为了后面工作的顺利进行,注意本地防火墙要打开5666能让外部的监控机访问

/usr/local/nagios/libexec/check_nrpe –h查看这个命令的用法

可以看到用法是check_nrpe –H 被监控的主机 -c要执行的监控命令

注意:-c后面接的监控命令必须是nrpe.cfg文件中定义的.也就是NRPE daemon只运行nrpe.cfg中所定义的命令

查看NRPE的监控命令

cd /usr/local/nagios/etc

vi nrpe.cfg

找到下面这段话

# The following examples use hardcoded command arguments...

command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10

command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20

command[check_hda1]=/usr/local/nagios/libexec/check_disk -w 20 -c 10 -p /dev/hda1

command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs -w 5 -c 10 -s Z

command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 200

红色部分是命令名,也就是check_nrpe 的-c参数可以接的内容,等号=后面是实际执行的插件程序(这与commands.cfg中定义命令的形式十分相似,只不过是写在了一行).也就是说check_users就是等号后面/usr/local/nagios/libexec/check_users -w 5 -c 10的简称.

我们可以很容易知道上面这5行定义的命令分别是检测登陆用户数,cpu负载,hda1的容量,僵尸进程,总进程数.各条命令具体的含义见插件用法(执行”插件程序名 –h”)

由于-c后面只能接nrpe.cfg中定义的命令,也就是说现在我们只能用上面定义的这五条命令.我们可以在本机实验一下.执行

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_users

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_load

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_hda1

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_zombie_procs

/usr/local/nagios/libexec/check_nrpe -H localhost -c check_total_procs

启动NRPE

1	/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d

验证NRPE是否正确安装

1	/usr/local/nagios/libexec/check_nrpe -H localhost

注：如果成功，会返回NRPE的版本号。

在运行nagios的监控主机上

之前已经将nagios运行起来了,现在要做的事情是:

– 安装check_nrpe插件

– 在commands.cfg中创建check_nrpe的命令定义,因为只有在commands.cfg中定义过的命令才能在services.cfg中使用

– 创建对被监控主机的监控项目

在commands.cfg中增加对check_nrpe的定义

vi /usr/local/nagios/etc/objects/commands.cfg

在最后面增加如下内容

########################################################################

# 2007.9.5 add by yahoon

# NRPE COMMAND

########################################################################

# 'check_nrpe ' command definition

define command{

command_name check_nrpe

command_line $USER1$/ check_nrpe -H $HOSTADDRESS$ -c $ARG1$

}

意义如下

command_name check_nrpe

定义命令名称为check_nrpe,在services.cfg中要使用这个名称.

command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$

这是定义实际运行的插件程序.这个命令行的书写要完全按照check_nrpe这个命令的用法.不知道用法的就用check_nrpe –h查看

-c后面带的$ARG1$参数是传给nrpe daemon执行的检测命令,之前说过了它必须是nrpe.cfg中所定义的那5条命令中的其中一条.在services.cfg中使用check_nrpe的时候要用!带上这个参数

下面就可以在services.cfg中定义对dbpi主机cpu负载的监控

define service{

host_name dbpi

被监控的主机名,这里注意必须是linux且运行着nrpe,而且必须是hosts.cfg中定义的

service_description check-load

监控项目的名称

check_command check_nrpe!check_load

监控命令是check_nrpe,是在commands.cfg中定义的,带的参数是check_load,是在nrpe.cfg中定义的

max_check_attempts 5

normal_check_interval 3

retry_check_interval 2

check_period 24x7

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

contact_groups sagroup

}

像这样将其余四个监控项目加进来.

之前我们说过了,今天还有一个任务是要监控dbpi的swap使用情况.但是很遗憾,在nrpe.cfg中默认没有定义这个监控功能的命令.怎么办?手动在nrpe.cfg中添加,也就是自定义NRPE命令.

现在我们要监控swap分区,如果空闲空间小于20%则为警告状态—warning;如果小于10%则为严重状态—critical.我们可以查得需要使用check_swap插件,完整的命令行应该是下面这样.

/usr/local/nagios/libexec/check_swap -w 20% -c 10%

在被监控机上增加check_swap命令的定义

vi /usr/local/nagios/etc/nrpe.cfg

增加下面这一行

command[check_swap]=/usr/local/nagios/libexec/check_swap -w 20% -c 10%

我们知道check_swap现在就可以作为check_nrpe的-c的参数使用了

修改了配置文件,当然要重启.但是

如果你是以独立的daemon运行的nrpe,那么需要手动重启.

如果你是在xinetd或者inetd下面运行的,则不需要.

由于我们是xinetd下运行的,所以不需要重启服务

在监控机上增加这个监控项目

define service{

host_name dbpi

service_description check-swap

check_command check_nrpe!check_swap

max_check_attempts 5

normal_check_interval 3

retry_check_interval 2

check_period 24x7

notification_interval 10

notification_period 24x7

notification_options w,u,c,r

contact_groups sagroup

}

所有的配置文件已经修改好了,现在重启nagios.杀掉nagios进程,然后再重启.等上一会你就可以看到下面这个画面了

基本上nagios的主要功能就有这些,nagios的使用关键在于如何活用那些丰富的插件.nagios可以说是一个对于linux/unix环境支持十分好的程序.对于被监控主机是windows系列相关的文章比较少.我就专门花一章来讲述.

有了下一篇,大家就可以功德圆满了.

写到这里,有几个我在安装和使用的几个小知识点,也可以说是小问题附在此处,欢迎大家批评指教.一般的附录都是在文章最后,可下一篇是windows相关了,与我要说的这几个问题没什么联系正所谓打铁趁热,我就在这里一气呵成,大家也容易看.

附录:

1.重启nagios的方法

之前我说重启nagios的时候都是用的杀进程的方式,其实也可以不这么做.如果在安装nagios的时候安装了启动脚本就可以使用/etc/init.d/nagios restart 还可以带的参数有stop, start,status

如果报错了,有可能是脚本里面的路径设置错误,解决办法

vi /etc/init.d/nagios

将prefix=/usr/local/nagiosaa改为安装的目录/etc/init.d/nagios

注:在nagios安装的时候说是将脚本安装到了/etc/rc.d/init.d,其实这和/etc/init.d是一个目录

2.不以xinetd的方式运行nrpe

因为我们按照nrpe的安装文档安装下来,nrpe是在xinetd下面运行的,个人比较喜欢像nagios那样以单独的daemon来运行.这样比较好控制.

方法:

编辑 /etc/services将nrpe注释掉

# Local services

#nrpe 5666/tcp # nrpe

编辑 nrpe.cfg,增加监控主机的地址

# NOTE: This option is ignored if NRPE is running under either inetd or xinetd

allowed_hosts=127.0.0.1,192.168.0.111

注意两个地址以逗号隔开

以单独的daemon启动nrpe

[root@dbpi etc]# /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d

查看

[root@dbpi etc]# ps -ef|grep nrpe

nagios 22125 1 0 14:04 ? 00:00:00 [nrpe]

[root@dbpi nagios]# netstat -an|grep 5666

tcp 0 0 0.0.0.0:5666 0.0.0.0:* LISTEN

说明已经正常启动了

在/etc/rc.d/rc.local里面加入下面一行就实现开机启动nrpe了

/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg –d

同理要开机运行nagios就在/etc/rc.d/rc.local里面增加下面这行

/usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg

3.有关于check_load的用法及意义

这个插件是用来检测系统当前的cpu负载,使用的方法为

check_load [-r] -w WLOAD1,WLOAD5,WLOAD15 -c CLOAD1,CLOAD5,CLOAD15

在unix里面负载的均值通常表示是1分钟,5分钟,15分钟内平均有多少进程处于等待状态.

例如check_load -w 15,10,5 -c 30,25,20这个命令的意义如下

当1分钟多于15个进程等待,5分钟多于10个,15分钟多于5个则为warning状态

当1分钟多于30个进程等待,5分钟多于25个,15分钟多于20个则为critical状态

C、Nagios被控端安装配置

1、创建Nagios用户及组

建立Nagios账号

1	/usr/sbin/useradd -m -s /sbin/nologin nagios

2、编译并安装Nagios插件

tar zxvf nagios-plugins-1.4.15.tar.gz

cd nagios-plugins-1.4.15

./configure --with-nagios-user=nagios --with-nagios-group=nagios

make

make install

cd .. //如果安装出现错误可看日志中解决办法

验证程序是否被正确安装：

1	ls /usr/local/nagios/libexec

显示安装的插件文件,即所有的插件都安装在libexec这个目录下。

3、安装NRPE

tar zxvf nrpe-2.12.tar.gz

cd nrpe-2.12

./configure

make all

make install-plugin

make install-daemon

make install-daemon-config

cd .. //如果安装出现错误可看日志中解决办法

4、启动NRPE

1	/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d

验证NRPE是否正确安装

1	/usr/local/nagios/libexec/check_nrpe -H localhost

注：如果成功，会返回NRPE的版本号。

5、修改NRPE配置文件，让监控主机可以访问被监控主机的NRPE。

缺省NRPE配置文件中只允许本机访问NRPE的Daemon

vi /usr/local/nagios/etc/nrpe.cfg

#缺省为127.0.0.1，只能本机访问

allowed_hosts=127.0.0.1,192.168.0.140监控端ip

6、重启nrpe的方法

killall nrpe

/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d

添加一台监控机，监控主机上操作：

在监控机操作/usr/local/nagios/etc/objects/commands.cfg 添加nrpe的定义

# 'check_nrpe ' command definition

define command{

command_name check_nrpe

command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$

}

监控主机上操作：
增加如下文件的目的为实时更新相关服务监控信息（数据显示的比较慢）

增加192.168.0.104.cfg 为要监控主机的主机信息和监控服务 192.168.0.104为被监控端ip

在/usr/local/nagios/etc/objects/ 目录下新建文件：192.168.0.104.cfg

把192.168.0.104.cfg添加到nagios主机：

# echo "cfg_file=/usr/local/nagios/etc/objects/1192.168.0.104.cfg" >> /usr/local/nagios/etc/nagios.cfg
vi /usr/local/nagios/etc/nagios.cfg

cfg_file=/usr/local/nagios/etc/objects/commands.cfg

cfg_file=/usr/local/nagios/etc/objects/contacts.cfg

cfg_file=/usr/local/nagios/etc/objects/timeperiods.cfg

cfg_file=/usr/local/nagios/etc/objects/templates.cfg

#cfg-file=/usr/local/nagios/etc/objects/hosts.cfg

#cfg-file=/usr/local/nagios/etc/objects/services.cfg

# Definitions for monitoring the local (Linux) host

cfg_file=/usr/local/nagios/etc/objects/localhost.cfg

cfg_file=/usr/local/nagios/etc/objects/192.168.0.104.cfg

# Definitions for monitoring a Windows machine

如果要再添加新机器方法炮制就可以了
vi /usr/local/nagios/etc/object/192.168.0.104.cfg

define host{

use linux-server

host_name 104

alias test

address 192.168.0.104

}

define service{

use generic-service ; Name of service template to use

host_name 104

service_description PING

check_command check_nrpe!check_ping

}

define service{

use generic-service

host_name 104

service_description CPU Load

check_command check_nrpe!check_load

}

define service{

use generic-service

host_name 104

service_description Current Users

check_command check_nrpe!check_users

}

define service{

use generic-service

host_name 104

service_description Disk Free Space /

check_command check_nrpe!check_disk_root

}

define service{

use generic-service

host_name 104

service_description Total Processes

check_command check_nrpe!check_total_procs

}

define service{

use generic-service

host_name 104

service_description Zombie Processes

check_command check_nrpe!check_zombie_procs

}

define service{

use generic-service

host_name 104

service_description Swap Usage

check_command check_nrpe!check_swap

}

define service{

use generic-service

host_name 104

service_description data1

check_command check_nrpe!check_disk_data1

max_check_attempts 5

normal_check_interval 1

}

重启监控机nagios

# /etc/init.d/nagios restart
检查服务端配置文件是否正确（包括你添加的192.168.0.104.cfg文件中的错误）

/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg
在被监控主机上设置如下：
vi /usr/local/nagios/etc/nrpe.cfg

allowed_hosts=127.0.0.1,192.168.0.140

command[check_users]=/usr/local/nagios/libexec/check_users -w 1 -c 1

command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20

#command[check_hda1]=/usr/local/nagios/libexec/check_disk -w 20% -c 10% -p /dev/hda1

command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs -w 5 -c 10 -s Z

command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 200

command[check_swap]=/usr/local/nagios/libexec/check_swap -w 30 -c 20

command[check_disk_root]=/usr/local/nagios/libexec/check_disk -w 20 -c 10 /

command[check_disk_data1]=/usr/local/nagios/libexec/check_disk -w 20 -c 10 /data1

command[check_ping]=/usr/local/nagios/libexec/check_ping -w 100.0,20% -c 500.0,60%

killall nrpe

/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d，

在监控主机上执行（执行此条目的为强制更新相关服务数据）
/usr/local/nagios/libexec/check_nrpe -H 被监控IP -c 执行的监控服务（被监控主机libexec下的，也就是被监控主机/usr/local/nagios/etc/nrpe.cfg中所定义的监控服务）
执行一条 nagios服务就会显示一条

要监控几个服务就执行几个服务

服务端：
监控端需要配置被监控端的配置文件，其中包括 host和services，如192.168.0.104.cfg
commands.cfg中配置check_nrpe使用命令，这个命令用于连接被监控端的nrpe.cfg
被监控端：
首先 libexec下要有nrpe.cfg中定义服务执行的插件，

原理：
服务器端加载被监控端的配置文件，通过用check_nrpe去连接被监控端的nrpe.cfg，被监控端执行nrpe.cfg中服务命令执行格式，
例如：
服务端添加被监控端的配置文件
define host{

use linux-server

host_name 104

alias test

address 192.168.0.104

}

define service{

use generic-service

host_name 104

service_description Swap Usage

check_command check_nrpe!check_swap

}
被监控端：

nrpe.cfg

command[check_swap]=/usr/local/nagios/libexec/check_swap -w 30 -c 20