Nagios监控部署（五）

最新推荐文章于 2019-03-22 14:32:49 发布

hzhuoquan

最新推荐文章于 2019-03-22 14:32:49 发布

阅读量624

点赞数

分类专栏： Linux-监控文章标签： nagios warnings 服务器防火墙平台数据中心

Linux-监控专栏收录该内容

34 篇文章 0 订阅

订阅专栏

引用http://kyhack.blog.51cto.com/490370/213368

六、启动 nrpe 服务并检查其配置

1、以独立守护进程启动 nrpe 服务

/usr/local/nrpe/bin/nrpe –c /usr/local/nrpe/etc/nrpe.cfg –d

2、查看系统日志，如果正常启动可以看到以下输出：

[root@rhel nrpe]# tail /var/log/messages
oct 15 18:01:16 rhel nrpe[11791]: starting up daemon

oct 15 18:01:16 rhel nrpe[11791]: listening for connections on port 5666

oct 15 18:01:16 rhel nrpe[11791]: allowing connections from: 127.0.0.1,192.168.0.10

查看端口 :

[root@rhel nrpe]# netstat -an |grep 5666

tcp 0 0 0.0.0.0:5666 0.0.0.0:* listen

查看进程：

[root@rhel nrpe]# ps aux |grep nrpe |grep -v grep

nagios 11791 0.0 0.1 4868 928 ? ss 18:01 0:00 nrpe -c /usr/local/nrpe/etc/nrpe.cfg –d

3、检查插件功能
1 ）检查 nrpe 的服务版本

[root@rhel nrpe]# /usr/local/nrpe/libexec/check_nrpe -h 192.168.0.10

nrpe v2.12

2 ）检查 nrpe.cnf 里面定义的命令有没有错误，也就是检查主机资源：

[root@rhel nrpe]# /usr/local/nrpe/libexec/check_nrpe -h 192.168.0.10 -c check_df

disk ok - free space: / 5245 mb (60% inode=95%); /home 13329 mb (80% inode=99%); /var 843 mb (9% inode=99%); /boot 82 mb (88% inode=99%); /dev/shm 235 mb (100% inode=99%);| /=3495mb;9197;9207;0;9217 /home=3215mb;17426;17436;0;17446 /var=7897mb;9197;9207;0;9217 /boot=10mb;78;88;0;98 /dev/shm=0mb;215;225;0;235

[root@rhel nrpe]# /usr/local/nrpe/libexec/check_nrpe -h 192.168.0.10 -c check_load

ok - load average: 0.00, 0.00, 0.00|load1=0.000;15.000;30.000;0; load5=0.000;10.000;25.000;0; load15=0.000;5.000;20.000;0;

[root@rhel nrpe]# /usr/local/nrpe/libexec/check_nrpe -h 192.168.0.10 -c check_ips

ok -connectcounts is 4

在 nrpe.cnf 里面的其它的一些命令也可以测试一下；

七、启动 nagios

首先检查一下配置文件有没有错误

[root@rhel nrpe]# /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

nagios core 3.2.0

reading configuration data...

read main config file okay...

……………省………………

read object config files okay...

checking misc settings...

total warnings: 0

total errors: 0

things look okay - no serious problems were detected during the pre-flight check

如果要错误的话可以根据提示把错误全部改正，像上面输出 total warnings: 0 total errors: 0 都为 0 时，说明配置文件没有问题，下面就可以启动 nagios 了；

/usr/local/nagios/bin/nagios –d /usr/local/nagios/etc/nagios.cfg

正学启动之后，就可以通过浏览器输入： http://192.168.1.10/nagios ,, 再输入前面第三大步 2 小步那里设置的密码，登录进去后：

点击左边 current status 下面的 services 就可以看到监控服务器所监控的主机项目了；如图下:

到这里就是大功告成了！

总结几点：

1、在创建各种配置文件时，注意定义的名称那里不要留有空格；

2、关于插件的用法，可以通过去 –h 来查看，如 : check_load –h ;

3、关于系统防火墙设置，我的一开始就是因为防火墙的原因而收不到邮件以及在监控 windows 主机时会超时的；在这里所用到的端口有 UDP 137:138 、 TCP 的 25 、 80 、 53 、 5666 、 12489 ，还有一个就是 ICMP ，这些都要用到；注意是双向，不要搞到给他从本机出去之后回不来（我的刚开始就是这样）。

4、本文部分内容参考田逸的《开源监控利器 nagios 》以及 yahoon 的小屋的 nagios 全攻略

5、看文档吧。

6、欢迎点评。

以下内容摘自田逸的《开源监控利器 nagios 》一文，来自 Linux/Unix 技术交流群共享。

服务器监控的一些策略

前段时间有人问我怎么用 nagios 监控 linux 内存使用情况 , 以及怎么设置报警阈值 ?linux 运行时 , 是最大可能的利用内存 , 监控这个对象没有现实意义 , 明显属于无效的监控策略 . 另有一人说 :” 晚上没完没了的收到监控系统的发送的报警短信，受不了 …” 。不言而喻，这也是一个不好的监控策略，实际上监控已经失去了它的意义。所以要让监控平台更有效的发挥作用，好的策略是必须的。那么怎么才能算是好的策略，这里我结合我的实际情况，谈谈我的一些看法，希望对大家有所帮助。

策略一：监控对象选择

在一个规模较大的网络中，监控的对象可能包括服务器、防火墙、交换机、路由器等等设备，以及运行在各对象上的服务。但是，我们没必要把所有的对象都放到这个监控系统中来。比如把某些测试系统放到监控中，就会产生如上那位老兄整个晚上收到报警短信的麻烦。因此，选择正确的监控对象是实施有效监控的前提，个人建议，只有那些重要级别高的，不能随便停止服务的对象――如在线交易系统――才是值得监控的对象。当然，服务器的使用者总希望你把它监控上，哪怕它不是那么重要。

策略二：故障报警方式选择

老板非常希望我们不知疲倦的坐在计算机旁，但是他只是一厢情愿而已。对监控系统而言，一定要有合适的故障告警机制。目前常用的告警机制包括：邮件、短信、 msn 、 web 页面显示等几种手段，这几种手段中，短信报警最佳。因为在夜间睡梦中，我们没办法随时收邮件，但是短信去能唤醒我们，通知我们发生故障了，而且在老板和用户发现这个故障以前。对于没有通道的机构来说，租用ｓｐ提供的服务是比较稳妥的方式，其他如用移动飞信等方式都不怎么考谱，不适合关键性业务运营。另外我使用了一个小技巧，让监控平台每天下午给我发一条短信，不管有没有故障都发，这样以便让我知道短信接口是否正常。

策略三：故障报警时效和间隔的选择

由于网络通信等不可控因素，因此可能存在故障误报的情况。如果把报警发送设置成一次探测不成功就发送报警信息就不是个好策略。经验表明：探测３－４次都失败再发送信息，并不耽误我们去处理故障。假如探测一次失败就报警，即可以很快把手机短信空间塞满，又会让你睡不好觉。

故障报警开始发送以后，一般会没完没了的发送，直到故障排除恢复正常，才会发一条类似“ *** is ok! ”的短信。报警发送间隔设置，也是需要费一番心思，设短了，不停的消耗你的短信费用，设长了，恐怕不足以唤醒沉睡的人；如果没有人去处理故障，也没有人去停止这个通知，报警信息就会一直发送下去。

那怎么样是一个合适的范围呢？我的做法是：探测４次失败开始报警，报警间隔１０分钟，总共发送８次，然后停止发送，假如第３次没有人去处理，我会电话通知，没回应则取消该对象的监控，并记录该次事件。

策略四：监控平台地点的选择

对于一个规模比较大的网络，为了解决南北互联问题而采取多个地点建立数据中心的办法。这时需要对不同地理位置的服务器进行监控，也会遇到访问慢的问题。解决这个问题有几种方式：１、选择一个到各个位置访问都顺畅的数据机房；２、采取分步是监控平台，各处自己收集监控信息，然后到一处汇总；３、各数据中心单独建监控平台。各人可以根据自己的实际情况自行选择。

策略五：流量控制和安全

有不少商业解决方案采取 snmp 和客户端软件来监控各个对象，这会引起额外的流量和带来安全问题。因此尽量不要使用 snmp 这样比较占资源的协议（具称 snmp v3 似乎有所改进）。开源解决方案 Nagios 在这方面做得比较完美，值得推荐一下。它可以以插件方式先收集到各监控对象的信息，然后再传送到监控服务器上，大大节省网络带宽。

本文出自 “ky.blog ” 博客，转载请与作者联系！