EMC VMAX/DMX 健康检查方法

近期连续遇到2个由于对VMAX存储系统没有做及时的健康检查,出现SPS电池故障没有及时处理,然后同一pair就是同一对的另外一个SPS电池再次出现故障,然后存储系统保护性宕机vault,然后业务系统挂掉的案例。

开始之前,先纠正很多朋友的一个误区,健康检查就是每天到机房去物理肉眼巡视一圈,如果有黄灯或者红灯点亮,就是有故障了,然后再到系统中去查看。然并卵,VMAX的设计不是这样的,即使有故障发生,VMAX也不会有任何的LED故障灯点亮,就是磁盘坏了很多块,也都是绿灯常亮。当然,对于电池,电源这些如果有故障,这些特定部件的LED灯会点亮的。但没有一个总的故障灯。

所以这里介绍下EMC VMAX存储健康检查的主要方法和详细步骤。对于检查中出现的任何问题可以联系我们,添加vx:StorageExpert进行处理。

1. solution enabler

很多朋友使用solution enabler 跑命令来做检查,这个方法简单,在任何安装了solution enabler的机器上都可以运行,具体命令另外文章做介绍。

其实也可以在vmax的控制台上运行solution enabler命令,有些不能用的原因是使用了破解系统,这个我们是不推荐的。

2. unisphere图形界面

这个最友好,直接访问控制台的管理口就可以访问图形界面,但是这个出来的结果有时候不是很准确,容易漏掉一些故障。

3. symmwin巡检

这个是最权威和最准确的巡检方法和工具。这里要重点介绍的就是Symmwin巡检方法。登录symmwin以后,对于普通小伙伴要做的是两个巡检,对于大师们,可以有第三个。下面一一介绍:

3.1 symmwin的healthcheck脚本

选择Procedures -> Then Procedure Wizard ->

选择run,系统就可以提示一步一步的操作。最后如果是绿色结束,说明没有问题。如果是红色结束,说明有问题,要查看具体的问题。

如果脚本报错,会出现一个类似下图的红框,说明脚本有问题了,要处理掉才可以继续。

 巡检脚本比较少出现红框,但也有,特别是在一些破解场景下。

巡检脚本跑完后,会自动弹出一个healthcheck.log的日志框,可以检查巡检的结果,报错都在这个里面了。

对这个结果要仔细看,这个应该是最权威的健康检查结果,solution enabler的,bad fru的都没有这个权威,对于里面的任何报错信息都要重视。

上图就可以看到有一个盘是有问题的,但实际上在bad fru里面没有这个盘出现。

3.2 环境检查 environment

由于这个是图形界面,很直观,我发现很多朋友把这个当作最权威的巡检工具了。这个工具其实只检查和环境有关的内容,对于逻辑部分,如device,volume,磁盘这些是不做检查的,这些内容的检查还是要到procedure的healthcheck中去查看。

选择tools,选择 environment, 然后选择 health check, 可以进行环境方面的健康检查,主要是检查电源,电池等。

点击 RUN health Check

检查结束后,会显示一个report,那些OK,那些有问题一目了然,照方抓药就可以了。

如果检查出有问题,可以直接点击下面的红色alarms或者黄色comm等,直接跳转到有告警的地方。

日志位置

日志文件DMX3/4: O:\ECM\<sn>\logs\symmwin\HealthCheck.log

VMAX:O:\EMC\<sn#>\SYMMWIN\scripts\HealthCheck_00000xx\healthcheck.log ,同时也压缩在下述文件中:

O:\EMC\SN#\log_zip\SN#_date_time_healthcheck_xxx.zip

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值