传统网络监控一般使用SNMP采集设备信息,结合ICMP报文监控网络通达及响应延时。此种方式通常依托现有网络,一旦出现异常,只能通过互联端口状态判断故障原因。然而端口状态所能提供的信息是极为有限的,无法精确定位故障点。若远端机房无人值守,则更加难以确认设备运行情况和线路状况。由于传统监控存在种种问题,带外管理的方式被引入了远程无人值守机房的监控体系之中。
标准的带外管理构成需要如下设备
1,控制台服务器
控制台服务器通过把机房内部网络设备的Console端口集中起来联网建立一套独立于数据网络之外的专用管理网络,数据和管理将不再共用同一物理信道,数据网络和管理网络完全独立互不影响。系统管理员利用专用管理网络通过控制台服务器对机房内部的网络设备进行集中监控、管理和维修。在网络出现故障情况下管理员可以通过Modem拨号方式登陆控制台服务器对网络设备进行管理和维修。
2,远程KVM
远程KVM产品是计算机设备(如:服务器、工作站、计算机等)专用管理工具,管理员通过远程KVM像操作本地计算机一样操作和管理远端机房内的计算机设备。远程KVM对远端计算机进行到BIOS级别控制。管理员通过https安全浏览器界面或SNMP管理界面对机房内部的计算机设备进行远程集中管理和维修。
3,电源管理器
电源管理器是一个电源管理工具,功能包括:电源智能分配、负载测量、监控、管理以及远程控制。系统管理员通过电源管理器对机房内部的计算机设备、网络设备及其它设备进行开机、重新起动、关闭等操作。电源管理器附带机房环境监控功能,通过内置的温度、湿度传感器对机房环境进行实时监控。并可以在突发状况下向管理员发送告警信息。
4,网络集中管理器
网络集中管理是整个网络设备的综合集中监控管理平台,多种网络设备(如计算机、服务器、路由器、交换机、防火墙等设备)通过内置的https或SNMP图形化管理界面统一监控、管理。管理员通过管理界面对机房内部网络设备运行状况一目了然,对于故障设备进行快速准确定位。系统管理员还可以通过对网络内部的计算机或网络设备进行统一系统升级,而无需管理员对设备进行逐一安装。具有强大的日志存储和管理能力,通过对设备产生系统日志进行系统分析和处理,对于有风险日志通过Email发送给管理员。
此种带外管理方式仍然存在一定弊端。比如在设备死机的情况下,通过console口收不到任何响应,而这种症状又和电力问题、线路故障等现象基本一致。因此无法确切判断故障原因。
为解决这些问题,可以考虑将模式识别技术引入监控系统中来。通过采集与分析图像,并转换为状态信息发送给管理者。要完成此项应用必须具备如下三个功能模块:
1) 图像采集
通过图像采集设备,获取设备指示灯等相关信息。其中可以包括系统指示灯,接口指示灯,电源指示灯,机房温湿度等等。
2) 图像分析与数据整理
使用模式识别技术对图像进行分析。可以通过与初期设定的正常模板进行比对的方式来得出现有状态信息。并将信息整理为固定数据格式,
3) 信息传递
将处理好的数据通过一定方式传送给管理者。
如图1所示,此应用系统中的各功能模块可以通过此种形式连接,并将信息从被管理设备传送到管理员处。
如今图像采集设备和信息传送设备需要完成的任务已经有较为成熟的技术来进行支撑。只需要在一些细节方面进行调整,并将之整合到应用系统中来。针对图像采集设备,可以将其固定于一处,使其能够采集到指示灯状态。如有更高层次的需求,可以考虑使用现有链路资源来对该设备进行远程遥控。在信息传送设备处,可以使用带外管理的链路资源。当然也可以使用移动设备,如手机短信,这样便能够省去带外管理链路的建设与维护。
图像处理与数据分析设备上运行着整个应用系统,控制着两端的设备正确运转,应用系统中保存着一份关于被监控设备在正常状况下的标准值记录。该记录可以是预先手工录入,也可以是某一正常时刻通过采集而得。图像采集设备按照应用系统指示定期采集设备状况,并将其反馈到系统中。系统将图像进行分析处理,并生成数字化信息与标准值记录进行比对。如果发现异常,便将异常结果通过信息传送设备发送给监管人员。
图2中显示的是某路由设备面板上的指示灯示意图。其中状态指示灯为红色,电源管理指示灯为橙色。正常情况下,所有指示灯都应为绿色。可以对指示灯的颜色进行如下定义:
绿色——0;橙色——1;红色——2
因此系统中存储的正常记录为“0000”。在某一时刻通过采集与分析后得出的现有状态为“2001”。如果只是需要做简单分析,那么只要结果不是“0000”,就发送一条告警信息。更进一步的话,还可以建立一张错误代码对应表,通过“2001”的结果直接反映出故障原因,再发送给管理人员。
系统中应定义一个时间间隔,用于自动控制采集设备运转。除了存放设备正常时的记录外,还应存放一条最近的状态记录,用来避免重复告警。也就是说,当第N+1次采集时发现设备异常,然后再与第N次的结果比对。如果与第N次的结果相同。那么将忽略本次异常。如果与第N次不同,则向管理员报告异常结果。当第N+2次采集时发现设备正常,而且第N+1次的采集结果为设备异常时,同样也要将设备恢复情况报告给管理员。(参见图3)
在进行图像分析的过程中,因为可能存在多种原因影响镜头的采集效果,但一般都会在可控范围之内。因此应该根据机房实际情况(灯光、温湿度)来调整颜色辨别的参数值,适当加大或减小与标准颜色匹配的误差值。同时也可以对采集范围进行延伸,包括但不限于对指示灯的监控。为提高信息精度,可以使用多次采集多次分析最终得出结果,并同时支持将原始图像文件通过一定形式发送到管理人员处。