Nagios (http://www.nagios.org/)是一个开放源代码的主机、服务和网络的监控平台。它被广泛使用在企业的IT部门中,负责企业核心系统营运情况的监控工作。
CIC对网络口碑的研究涉及了部分类似“云运算”的技术,需要有大量机器不间断的在进行工作.因而需要搭建一套能够24小时监控机器上运行的服务和其性能情况的平台,来帮助我们记录并分析机器运行状态,以及提前预警。这次我对Nagios的研究目的在于,除了常用的指标 (CPU,ping,DISK...),我们要求Nagios能够监控更多更细致更及时的指标,比如一些表示状态的数据等等,这就需要我们自己编写一些插件.
所幸Nagios可以很轻松的支持自定义插件,只要你满足他规定的一些简单的原则:
脚本输出原则
状态代码原则
脚本输出原则
Nagios可以根据符号:“|” 把插件输出的数据分割成performance data 和 Status Information,其中performance data可以交给pnp来通过图表的方式显示,Status Information主要是表示当前数据的一些状态
下面是一个插件输出结果的示例:
One line of output (text and perfdata)
A plugin can return optional performance data for use by external applications. To do
this, the performance data must be separated from the text output with a pipe (|)
symbol like such:
DISK OK - free space: / 3326 MB (56%);
|
/=2643MB;5948;5958;0;5968
The final contents of each macro are listed below:
Macro Value
$SERVICEOUTPUT$ DISK OK - free space: / 3326 MB (56%);
$SERVICEPERFDATA$ /=2643MB;5948;5958;0;5968
通过这样的一个符号“|”就可以很简单的把我们要显示出来的数据分离出来交给nagios。是不是很简单?
状态代码原则:
退出状态代码的含义如下所示:
OK —退出代码 0—表示服务正常地工作。
WARNING —退出代码 1—表示服务处于警告状态。
CRITICAL —退出代码 2—表示服务处于危险状态。
UNKNOWN —退出代码 3—表示服务处于未知状态。
最后一种状态通常表示该插件无法确定服务的状态。例如,可能出现了内部错误。
所有这些代码都是告知nagios,你所编写的插件目前的一个状态,nagios得到这些状态后就可以自动做出相应的操作,如发邮件通知,短信提醒,或者亮起绿灯表示插件运行一切正常.
下面是一个简单的python插件脚本:
urlItem = urllib.urlopen("http://XXX:XXX/XXXX/")
htmSource = urlItem.read()#读取页面内容
urlItem.close()
item=0
def getValue(displayName):
for data in htmSource.split("|"):
if data.find(":")!=-1:
strD=data.split(":")
name=strD[0]?
item += int(strD[2])
print name
if item:
sys.exit(3)
print "| item="+str(item)+"c" #SERVICEPERFDATA nagios显示的数据
getValue("item")
编写完插件,将其在nagios配置后实际显示的效果: