一、Nagios监控配置的常规说明:

1.1.监控步骤:

被监控端安装代理(linuxnrpewindowsNSClientà配置被监控端监控脚本à主机定义(服务器端)à定义命令(服务器端,普通监控默认已定义好,可跳过此步)à定义服务(服务器端)à其他定义(此步可省略,包含:联系人、主机组、服务器组、服务组等)

1.2.Nagios监控的四种状态:

Nagios的状态有四种,根据返回值区分:

返回 0 ,正常

返回 1 ,警告

返回 2 ,紧急

返回 3 ,未知

因此,不管是linux还是windows,在自定义脚本是,只要设置好exit后跟的返回值即可实现Nagios的通知提醒。

二、Windows代理NSClient++的安装

下载最新的NSClient++ 0.40安装,填入Nagios服务器IP,密保保存为空,并勾选支持的前三项插件,如下图:

151556234.png

三、利用默认配置实现监控硬盘空间、CPU负载、内存等信息:

1

2

3

3.1被监控端(Windows服务器)配置自带防火墙例外或者关闭自带防火墙,开放TCP 5666TCP 12489端口。

3.2Nagios服务器端:

1.

2.

3.

3.1.

3.2.

3.2.1.配置/usr/local/nagios/etc/nagios.cfg,将如下一行前面的注释取消:

cfg_file=/usr/local/nagios/etc/objects/windows.cfg

3.2.2.定义主机,编辑/usr/local/nagios/etc/objects/windows.cfg,添加主机定义:
define host{

       use            windows-server   ;使用主机模板
       host_name      主机名            ;主机名
       alias主机别名         ;主机别名
       address        192.168.0.8             ;IP地址
}

3.2.3.定义服务,编辑/usr/local/nagios/etc/objects/windows.cfg,添加服务定义:

A.定义监控CPU负责的服务:

define service{

       use                 generic-service ;服务模板

       host_name           主机名  ;上面定义的主机名

       check_interval        18

       service_description    CPU 负载;服务名称

       check_command      check_nt!CPULOAD!-l 5,80,90

       }

说明:检查5分钟平均值,报警值80%,警告值90%

B.定义监控内存的服务:

define service{

       use                     generic-service,srv-pnp

       host_name               主机名

       check_interval          18

       service_description     Memory 含虚拟内存

       check_command           check_nt!MEMUSE!-w 78 -c 82

       }

说明:内存报警值78%,警告值82%(该数据包含虚拟内存)

C.定义监控磁盘空间的服务:

define service{

       use                   generic-service,srv-pnp

       host_name             主机名

       check_interval          30

       service_description      Drive Space D

       check_command   check_nt!USEDDISKSPACE!-l d -w 80 -c 90

       }

说明:-l后接盘符,报警值80%,警告值90%

D.定义监控windows服务运行状态:

define service{

   use               generic-service

   host_name         主机名

   service_description  服务名

   check_command  check_nt!SERVICESTATE!-d SHOWALL -l 服务名

   }

说明:-l后接要检查的服务名称;contacts为定义的通知联系人。

E.其他更多的用法可以根据windows.cfg文件的预定义服务进行举一反三。

3.2.4.使用命令:service nagios restart重启查看状态,正常的话如下图:

151715398.png

四、自定义脚本监控(NRPE)

1

2

3

4

4.1客户端脚本编写:

脚本的编写可以使用批处理、powershell脚本或vbs等,只要能返回状态信息和返回值(见文章开头第一段说明)。

例如如使用批处理,可以使用echo命令返回状态信息;使用exit跟数字0123返回状态值。如下面的一段批处理脚本可以实现对进程状态进行监控:

@echo off

:: 监控进程是否运行

::%1表示使用中的第一个参数,即进程名称

tasklist |find "%1" >NUL

IF ERRORLEVEL 1 GOTO err

IF ERRORLEVEL 0 GOTO ok

:err

echo CRITICAL!Process %1 is not exist!

exit  2

::返回值为2,表示警告

:ok

echo OK!Process %1 is exist!

exit  0

::返回值为0,表示正常

将上述命令作为批处理保存在C:\Program Files\NSClient++\scripts路径下如check_run.bat,注意,在返回的状态信息中尽量不要用中文。

4.2客户端脚本命令配置:

编辑C:\Program Files\NSClient++\nsclient.ini,找到[/settings/external scripts/scripts]一行,在下面加入如下内容:

  Command_alias=scripts\check_run.bat Process_Name.exe

注意:等号前面的别名为服务器端调用的命令,等号后面接具体的脚本,脚本后面跟参数进程名称,该参数会被脚本使用%1变量进行调用。如我要监控【视频监控主机】的视频录像程序是否启动,可替换为check_manager=scripts\check_run.bat  VideoManager.exe

4.3服务器端服务配置()

定义服务后:

define service{

       use                     generic-service

       host_name               Monitor

       service_description           管理平台

       check_command          check_nrpe!check_manager

       }

4.4重启Nagios服务:service nagios restart

151744845.png

通过上述默认支持的监控项目和自定义脚本,基本能实现Windows所有需要的监控(对部分服务的详细监控需要很复杂的脚本才能实现)。

友情链接:旺旺知识库