服务案例 | 黄山市某医院MOC服务案例

01、案例背景

黄山市某医院IT设备托管在运营商机房,为了随时掌握设备和系统运行状态,接入了LinkSLA智能运维管家,2021年9月29日9时44分,MOC经理收到该用户Hadoop节点设备健康状态报警。

02、处理过程

step1、查看详情

Moc工程师进入设备详情查看,设备整体监控值异常,但是CPU、内存、硬盘和其它部件状态正常。

step2、及时沟通客户,联系现场工程师,进行设备检查。

 

step3、现场检查

现场工程师进入机房,查看Hadoop节点设备,发现健康指示灯橙色闪烁报警。

现场工程师登陆HDM管理界面进一步确认是物理盘4和物理盘5离线报警。

物理盘4和物理盘5离线报警

step4、国庆期间再次报警

用户在第一时间内通知原厂进行了更换硬盘操作,但是在10月3日,平台仍然收到了该设备硬件告警。

国庆期间再次报警

step5、物理硬盘9报离线状态错误

MOC工程师联系客户和现场工程师,继续检查Hadoop节点设备硬盘状态,发现物理硬盘9报离线状态错误。

 物理硬盘9报离线状态错误

step6、根因定位

我司二线专家认为硬盘状态灯正常,在更换硬盘后,其它硬盘也报离线等故障,很有可能是磁盘背板故障,建议更换磁盘背板和告警的硬盘。

最终,设备原厂在更换该设备的磁盘背板和磁盘后,问题得到最终解决。

03、案例总结

平台通过实时采集Hadoop节点设备参数,发现Hadoop节点设备健康状态报警。此时Hadoop节点设备的操作系统仍然在运转中,客户和现场工程师并未发现此设备出现硬件故障。

MOC工程师接到告警工单后,通过设备监测数据排除了CPU和内存故障,及时通知客户,进入机房检查Hadoop节点硬件。经过一系列硬件排查,对已出现故障的板子和硬盘进行更换,消除隐患。确保医院生产系统正常运行。

此案例中,LinkSLA智能运维管家的提前预警和MOC工程师远程值守发挥了重要作用,发现设备报警及时通知客户,并在问题解决前一直跟进、提醒,直至问题彻底解决,完成工单闭环。降低业务中断发生的风险。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值