用 Nagios 对你服务器全面监控(Plugis 和安装和配置) -CSDN博客

本文链接：https://blog.csdn.net/wangjc_opal/article/details/84002465

完成了 Nagios 的基本平台安装,我们现在来说说 Plugis 和安装和配置.

官网插件的最新版本为 nagios-plugins-1.4.12 .sourceforge.net 被封,你照样还得通过其他方法得到这个插件.

tar -zxvf nagios-plugins-1.4.12.tar.gz
cd nagios-plugins-1.4.12
 ./configure --prefix=/usr/local/nagios-plugs
mv /usr/local/nagios-plugs/libexec /usr/local/nagios/libexec

这样就可以了,在 libexec 目录下你会发现很多可执行的脚本程序,名称类似 check_icmp. Nagios 的检查服务大部分是通过这些插件来完成的,每定义一个监控你需要知道这些插件是如何工作的,比如我们要知道 check_icmp 这个是如何服务的,只需:

./check_icmp -h
Copyright (c) 2005 Andreas Ericsson<ae@op5.se>Copyright (c) 2005-2008 Nagios Plugin Development Team<nagiosplug-devel@lists.sourceforge.net>Usage: check_icmp [options] [-H] host1 host2 hostN

Options:
 -h, --help
    Print detailed help screen
 -V, --version
    Print version information
 -H
    specify a target
 -w
    warning threshold (currently 200.000ms,0%)
 -c
    critical threshold (currently 500000.000ms,80%)
 -s
    specify a source IP address or device name
 -n
    number of packets to send (currently 5)
 -i
    max packet interval (currently 80.000ms)
 -I
    max target interval (currently 0.000ms)
 -m
    number of alive hosts required for success
 -l
    TTL on outgoing packets (currently 0) -t
    timeout value (seconds, currently  10)
 -b
    icmp packet size (currenly ignored)
 -v
    verbose
......

./check_icmp -H www.163.com
OK - www.163.com: rta 32.162ms, lost 0%|rta=32.162ms;200.000;500.000;0; pl=0%;40;80;;

可以看到 "OK" 字样,以及一些详细的信息.

就拿 check_ping 这个来举例吧.首先会在 etc/objects/commands.cfg 这个文件这样定义:

#'check-host-alive'command definition
define command{
        command_name    check-host-alive
        command_line    $USER1$/check_ping -H $HOSTADDRESS$ -w 3000.0,80% -c 5000.0,100% -p 5
        }

然后我们会在 etc/objects/localhost.cfg 这个文件里发现这样的字眼

check_command check-host-alive

.csharpcode, .csharpcode pre { font-size: small; color: black; font-family: consolas, "Courier New", courier, monospace; background-color: #ffffff; /*white-space: pre;*/ } .csharpcode pre { margin: 0em; } .csharpcode .rem { color: #008000; } .csharpcode .kwrd { color: #0000ff; } .csharpcode .str { color: #006080; } .csharpcode .op { color: #0000c0; } .csharpcode .preproc { color: #cc6633; } .csharpcode .asp { background-color: #ffff00; } .csharpcode .html { color: #800000; } .csharpcode .attr { color: #ff0000; } .csharpcode .alt { background-color: #f4f4f4; width: 100%; margin: 0em; } .csharpcode .lnum { color: #606060; }这样在你 Nagios 的web页面上会看到 localhost 这个主机状态为up.

那在 Nagios 里如何调用这些可以独立工作的插件呢?

Nagios.3.X 和 Nagios.2.X 的配置上还是有一点小差别的.在这篇里我将会用例子讲述如何定义 commands,host 和 services.我们通过一个监控 ssh 的服务来具体说明.

我有一台远程主机,开放了 ssh 服务,并且端口改为 33220,现在要监控这个主机的这个服务.

首先我们要先了解 check_ssh 的用法,输入 –h 可以查看帮助

./check_ssh -H x.x.x.x -p 33220
SSH OK - OpenSSH_4.5p1 FreeBSD-20061110 (protocol 2.0)

vi etc/objects/commands.cfg
#'check_ssh'command definition
define command{
        command_name    check_ssh
        command_line    $USER1$/check_ssh -H $
   $HOSTADDRESS$ -p $ARG1&
        }

在 command_line 的最后面我们添加 -p $ARG1$

接着我们来定义 host .在 Nagios.3.x 里面,etc 目录下将会有 cgi.cfg , nagios.cfg,resource.cfg 几个配置文件和一个 objects 目录.我们要自定义服务器,我们先修改 nagios.cfg 这个文件,把这一样的注释取消

cfg_dir=/usr/local/nagios/etc/servers

这样我们可以在 servers 这个目录下添加我们自定义服务器的配置文件,分类管理,适合大型网络.当然如果你的服务器不多,你就完全可以随便在哪弄一个配置文件然后再 nagios.cfg 里面声明即可 ^0^

# vi etc/servers/myhost.cfg

define host {
use                     linux-server
host_name myhost
alias myhost
address x.x.x.x
check_command check-host-alive

}
define service {
use                             local-service
host_name myhost
service_description           SSH
check_period 24x7
max_check_attempts 2
normal_check_interval 3
retry_check_interval 2
notification_interval 10
notification_period 24x7
notification_options w,u,c,r
check_command check_ssh!33220

}

完成这样的定义,我们在web上就可以看到这个host的状态的ssh服务的监控了.

现在来说明下 define host 的一些参数

—————–

define host{

host_name host_name ＃简短的主机名称

alias alias ＃别名，可以更详细的说明主机

address address ＃ip地址，当然你如果足够信任你的DNS的话，也可以写名称。如果你不定义这个值，nagios将会用host_name去寻找主机。

parents host_names ＃上一节点的名称，也就是指从nagios服务器到被监控主机之间经过的节点，可以是路由、交换机、主机等等。当然，这个节点也要定义，并且要被nagios监控。

hostgroups hostgroup_names ＃主机组名称，简短的

check_command command_name ＃检查命令的简短名称，如果此项留空，nagios将不会去判断该主机是否alive。

max_check_attempts 整数＃当检查命令的返回值不是“OK”时，重试的次数

check_interval 数字＃循环检查的间隔时间。