在对服务器的硬件监控上,目前业界主要基于如下两种:

1、服务器自带的工具,比如HP的hpacucli,DELL的OMSA等

2、智能平台管理接口 (IPMI,全称Intelligent Platform Management Interface)

基于以上两种,通过nagios、zabbix或自研运维平台等包裹,进行预警操作。

由于公司使用的服务器全部为DELL PowerEdge系列的,这里将以如何对DELL PowerEdge系列服务器硬件进行监控这一实际案例为主。

一、OMSA 介绍

DELL OMSA的全称为Dell Openmanage Server Administrator,它是戴尔公司基于自主研发力量开发的IT系统管理解决方案,通过与业内领先的系统管理解决方案供应商密切配合,在深入了解用户对系统管理需求的基础上,OMSA系统管理方案可以全面解决系统管理人员最关心的系统部署、系统监控和系统变更三大系统管理问题。它通过提供以下两种方式来对本地和远程的服务器进行管理和监控。

界面:

clipboard

clipboard[1]

这里基于zabbix 开源监控平台,自己编写监控脚本,通过自定义key得方式在zabbix中进行数据监控和故障预警。

一、直接获取值的监控项:

clipboard[2]

   

二、LLD由于有些服务器部件是变动得,所以基于LLD(Low-level discovery)动态得发现设备并基于我指定得监控项模板创建监控项:

clipboard[3]

三、一台真实服务器得数据效果展示:

RAID状态监控(由于服务器上可能会创建多个raid,并且raid级别各不一样):

clipboard[4]

   

机箱状态:

clipboard[5]

 

   

硬件——BBU:

clipboard[6]

 

   

硬件——CPU:

clipboard[7]

 

 

硬件——内存:

clipboard[8]

 

 

硬件——温度:

clipboard[9]

 

 

硬件——电压:

clipboard[10]

   

硬件——电源:

clipboard[11]

 

 

硬件——硬盘:

clipboard[12]

 

 

硬件——网卡(这里得“问题”是没有连接):

clipboard[13]

 

 

硬件——风扇:

clipboard[14]

   

硬件——资产信息:

clipboard[15]

 

四、这套监控还完成了服务器资产信息管理

在很多服务器得情况下,一般使用zabbix监控得用户,当某个机器告警了,要连上去看一下得时候,不知道这台机器得IP。一般会到zabbix右上角搜索一台机器,然后点击去找到这个机器得IP或者域名,然后登陆到服务器上查看。(我们告警得时候告警得是机器得alias名称——别名,不会选择报IP,因为别名让收告警得用户更好知道这台是台提供什么得服务器或者作用。)

在这个基础上我又在监控得机器上加入了很多信息,并且不是手动去输入得都是自动生成的。服务器情况从此不管是运行状态还是设备信息都能从监控这一个平台全部看到。

下面是效果:

clipboard[16]

clipboard[17]

clipboard[18]

 

从刚开始探索硬件监控到写脚本实现,从线下测试到线上全部测试,再到模板得创建,修复大大小小不协调问题,监控项得慢慢完善才有了现在这套监控。脚本总共有415行代码!

github地址:https://github.com/LiangXianSen/Dell-OMSA-monitor  (欢迎各位朋友提出问题或者意见,也可以帮忙修改不对得地方,谢谢!)

由于考虑到基础差一些,或者急于完成这个监控任务的(伸手党),我挂在淘宝上了,包含:教程文档、Zabbix模板、监控脚本;这是淘宝链接https://item.taobao.com/item.htm?id=525989206005  只要20块钱,愿意花一顿饭钱来节省自己时间得可以直接购买,外加我提供部署过程中遇到得问题解决和技术支持。

 

========================================================================

如果你觉得该篇文章写的不错,并且在你的工作或者生活中带来了帮助,那么你愿意在生活中给予我帮助吗?如果你愿意,为我写博客添加一些动力,可以扫下面得二维码给予我少量得赞助。

(不管再小得赞助都是你对我得肯定,这会是我一直坚持下去得动力~! 谢谢!)

 

 

向我付款

这是我的微信:

我的微信