nagios是开源的,网络监视工具,长监控:Windows,Linux,Unix的主机状态,交换机路由器等网络设备。
1)nagios功能:
-
监控网络服务(POP3,HTTP,PING,SMTP)
-
监控主机资源(处理器负荷,磁盘利用率等)
-
简单的插件设计使得用户可以扩展自己服务的检测方法
-
并行服务检查机制
-
具备定义网络分层结构的能力, 用"parent"主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;(允许逐级调查,就是从父主机开始向下检查)
-
当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式)
-
可以定义一些处理程序,使之能够在服务或者主机发生故障时起到预防作用
-
自动的日志滚动功能
-
可以支持并实现对主机的冗余 监控
-
可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等
-
可以通过手机查看系统监控信息
-
可指定自定义的事件处理控制器
2)nagios监控的主要内容:
-
本地资源:负载uptime,CPU(top,sar),磁盘(df),内存(free),IO,RAID级别,passwd文件的变化
-
网络服务:端口,URL,丢包,进程数,网络流量
-
其他设备:交换机端口流量,路由器,打印机,Windows等
-
业务数据:用户登录失败次数,用户登录网站次数,某个API接口流量并发,网站订单。
3)nagios工作原理
nagios的功能是监控服务和主机,但是自身不包括这部分功能,所有的监控,检测功能都是通过各种插件来完成。
启动nagios后, 它会周期性的自动调用插件去检测服务器状态,同时Nagios会维持一个队列,所有插件返回来的状态信息都 进 入队列,Nagios每次都从队首开始读取信息,并进行处理后,把状态结果通过web显示出来。
Nagios提供了许多插件,利用这些插件可以方便的监控很多服务状态。安装完成后,在nagios主目录下的/libexec里放有 nagios 自带的可以使用的所有插件,如,check_disk是检查磁盘空间的插件,check_load是检查CPU负载的,等等。每一个 插 件可以通过运行./check_xxx –h 来查看其使用方法和功能。
Nagios可以识别4种状态返回信息,即 0(OK)表示状态正常/绿色、1(WARNING)表示出现警告/黄色、2(CRITICAL)表示出现 非 常 严重的错误/红色、3(UNKNOWN)表示未知错误/深黄色。Nagios根据插件返回来的值,来判断监控对象的状态,并通 过web 显示出来,以供管理员及时发现故障。
4) Nagios 系统提供了一个插件NRPE。Nagios 通过周期性的运行它来获得远端服务器的各种状态信息。
Nagios 通过NRPE 来远端管理服务
1. Nagios 执行安装在它里面的check_nrpe 插件,并告诉check_nrpe 去检测哪些服务。
2. 通过SSL,check_nrpe 连接远端机子上的NRPE daemon
3. NRPE 运行本地的各种插件去检测本地的服务和状态(check_disk,..etc)
4. 最后,NRPE 把检测的结果传给主机端的check_nrpe,check_nrpe 再把结果送到Nagios状态队列中。
5. Nagios 依次读取队列中的信息,再把结果显示出来。