首先介绍一下APC netbotz 250, 这是施耐德推出的一款机架式监控主机,能够对所有IT环境进行经济有效而且灵活的监控,号称APC史上性价比最高的环境监测方案,这可不是我吹的,是APC官网的介绍,可参考下面的官网截图。
我们机房有幸也有一套这样的系统,笔者大致用了一下,确实功能还是强悍,支持各种类型的检测,我们这边的使用范围比较小,一般就是使用温湿度监控,有几个亮点还是不错:
- 支持Telnet/SSH登录操作
- 短信/邮件报警
- SNMP支持
- Syslog收集
- Web UI图形化操作界面
真是麻雀虽小,五脏俱全。
回到我们的应用上面来,我们机房使用的温度报警,当温度达到阈值后,Netbotz 250能够推送报警,然后IT进行紧急操作。
这是一种常规而且也是大多数管理员的操作方式,但是,这是一种被动的管理方式。
随着IT技术的发展,能不能实现报警前置?就是说通过历史数据曲线,发现他有潜在的触发报警的可能,在这个问题发生之前,把问题处理掉,这样可以从被动式管理向主动式管理的转变。
以我们的这个netbotz 250为例,我挑选了一个时间点的温度曲线:
从这个图上可以看到,温度从16:00开始已经开始逐步上升,在到达26°的阈值之前,我们完全可以检查一下机房设备,这样可以避免触发报警。
那天晚上,通过这个报告,紧急联系值班人员干预,温度立马下降,后分析原因,室外温度过低,低于零下4摄氏度,空调制冷故障,简单操作就可以避免一次报警的发生。这是一个真实的案例。
回到本文的核心上来,这个跟Python有什么关系?
要实现主动检查,就需要netbotz 250定时推送报告,这一点APC需要完善,没有这样的报表功能,当然,如果有zabbix, 通过SNMP就可以解决。没有报告,管理员无法发现潜在的问题,也就无法实现主动式运维。该Python上场了。在这里Python主要作用是登录netbotz 250获取温度,绘制温度曲线,发送报告,看来Python还是挺忙的,大致涉及流程如下图:
核心获取温度代码:
host='10.202.0.*'
port=23
username="apc"
password="********"
command="nbsensor -t"
def gettmp()
try:
tn=telnetlib.Telnet(host,port)
tn.read_until(b'User Name :')
tn.write((username + "\r\n").encode('ascii'))
time.sleep(5)
tn.read_until(b"Password :")
tn.write((password + "\r\n").encode('ascii'))
time.sleep(5)
tn.write((command + "\r\n").encode('ascii'))
output=tn.set_debuglevel(1000)
output=tn.read_very_eager().decode('utf-8')
print("Execution result:\n", output)
print("Finished")
return output
except Exception as e:
print("Error occurred: ", str(e))
finally:
# 断开与目标主机的连接
if 'tn' in locals():
tn.close()
说明,因python操作telnet速度较快,数据还没有进入缓存,任务就执行完成,导致数据获取不全,所以用了time.sleep(5)进行等待,另外用tn.read_very_eager()取代tn.read_all().
剩下的操作就是绘制温度曲线,然后通过邮件的形式将内容发送出去,可参考下面的模板。
自动化、数字化、主动式运维任重而道远,主动式运维不单单IT运维人员的工具,同样也可以在厂务,维修,制程等部门推广,运维的理念随着技术的发展而不断更新,唯有不断学习,才能避免被时代淘汰。