任何数据中心中最重要的任务之一都是对网络设备,服务器和数据中心本身的监控。企业通常要制定很多的规划来选择有效的监控解决方案和研究数据中心网络设备的管理方法。
有效的监控解决方案对于维护数据中心网络是至关重要的,部分原因是出于数据中心长期以来都处在被忽略的地位。在过去数年前笔者曾经在数家数据中心工作过,笔者的经验是专门驻守数据中心监控这些问题的岗位几乎从未有过。事实上,可能也没有人整天待在数据中心里。毕竟数据中心寒冷而且嘈杂,因此网络管理员通常宁愿在别处度过大部分时间。有时管理员甚至都没有待在数据中心所在的建筑里。在笔者职业生涯的早期,笔者曾经在一家大型保险公司工作,这家保险公司的数据中心坐落在地下的掩体里。尽管数据中心设计精巧,但通常只有安保人员在那里工作。其他人都在几公里外的办公楼里上班。
无论管理性是否在数据中心里面工作,他们都必须设置有效的报警装置。你无法假设某人走进数据中心去注意控制屏上显示的故障提示。这也是为什么说管理员要确保应用了完善的网络管理和监控解决方案是如此重要。没有到位的网络管理和监控解决方案,你可能只有到电话响起才知道发生了问题。
你必须监控什么?
监控数据中心要制定很多规划,这是因为有许多不同的方面都需要进行监控。你很容易将数据中心监控看做是服务器上的制表工作,但实际上数据中心监控比这要复杂的多。举例来说,微软出品的System Center Operations Manager可以在监控Windows Servers上做大量工作,这样所需的规划配置就比较少。但如果你的服务器运行的不是Windows操作系统,那么ystem Center Operations Manager就没有用武之地。
除了服务器操作系统和应用软件之外,还有其他的要素需要进行监控。举例来说,保持数据中心温度恒定的监控就很重要。多数服务器都有内置的安全装置,如果服务器的温度超出了特定的临界值,安全装置就会在危险发生之前关闭服务器。好的监控解决方案应该能够告诉你数据中心周围环境的温度,如果指定服务器的温度开始接近临界值时,监控解决方案就会向你发出警报。
能量管理也是如此。如果电源发生故障,备份电池应该能让服务器在线维系一定的时间。规格更高的数据中心可能还会配备备份发电机。无论如何,你都必须对电源故障提高警惕,你还需要有到位的解决方案来了解在某个指定时间能提供多少备份电源。
一项好的监控解决方案必须向管理员发出有关服务器硬件,操作系统错误,应用软件错误,网络硬件和环境改变的各项警报。这是一项苛刻的要求,退一步说,这也是为什么说正确的规划如此重要的原因。就笔者所知,没有单一的监控解决方案能执行所有的这些功能。网络架构师典型的做法是购买几种监控解决方案,对他们进行设置以统一的方式发出警报。这种警告可能是以文本信息的方式发送到管理员的移动设备或者电子邮箱,或者是以其他类型的警报形式发送到技术支持。重要的事情是所有的警报都到达同一地点。
虚拟化让数据中心网络监控复杂化
当你采购监控解决方案时,记住某些因素是很重要的,诸如虚拟化,它会让监控流程变得复杂。举例来说,在市场上有各种监控应用软件能够监控服务器硬件的故障情况。这种应用软件可能会对超标的服务器温度,SMART磁盘警告或者服务器内的制冷风扇故障做出提示。问题是如果监控解决方案无法获知他们监控的是虚拟机,它也不可能知道硬件系统会对服务器可用性存在潜在影响。
监控软件处理的应该是主服务器硬件出现的问题。但是如果主服务器处于危险之中,那么任何在主机上运行的虚拟机也面临同样的问题。因此如果你的企业想部署虚拟机,你就必须要办法能区分物理服务器和虚拟服务器,了解那个虚拟机在那个主服务器上运行。在硬件发生故障时,你还必须具备将客户端服务器快速迁移到不同主服务器上的能力。
最后,管理和监控是息息相关的。只有企业具备完善的管理能力能才保证监控发挥作用。举例来说,如果管理员没有办法解决出现状况的服务器发生的故障,监控软件又告诉你就要发生故障该如何是好呢?因此将监控和将数据中心内每台服务器与每个硬件的主要组件的远程管理相结合是非常重要的。