上星期在实施一个磁阵的方案时,错误的将几个正在使用的LUN划给了其他主机,导致该LUN相连主机上的数据库异常中断,文件损坏,只能从虚拟带库上做恢复,现在恢复速度异常的慢,而我的压力也很大。

此事,个人认为责任还是在我身上的,当然前期的规划是有问题:该磁阵将所有的LUN划给default group,没有标识主机名,只有光纤卡的WWN号,导致只要与磁阵在同一个zone中的主机都能使用,而我也不太清楚这种机制,在实施时虽然有发现磁阵上有多个WWN号,但考虑到这是一个测试方案,错误的认为,磁阵并无其他机使用,做了新建主机直接的迁移的操作,等到觉得事情似乎不太对,才去检查与之相连的服务器,此时为时已晚。

这过程中我有几个方面做得不对:

1、没有做好足够的实施准备,就凭以往的经验去操作;

2、在没有熟练的掌握磁阵操作前,独自一人进行磁阵的操作;

3、在遇到自己没有完全把握的情况下,擅自猜测做出决定;



做运维,是一件压力很大事,它做出的成绩并不显眼,而出了问题却往往是事故的责任方,做变更像是刀尖上起舞,处理故障如消防员救火。

人是不能避免犯错的,在压力面前除了小心细致之外,还有什么方法是可以值得我们思考,去避免发生故障呢,我想到的有这些:

1、拥有良好的操作习惯,对于个人来说,这是一份需要不断提高的素养,良好的操作习惯,可以避免那些因为精力不集中或错误信息导致一些错误。

良好的操作习惯有,进入机房注意自己动作行为,不至于误碰开关或线缆,键盘操作激活时不使用具有执行功能的键,用完KVM及时锁屏,对机器操作前确认IP及点亮机器,编辑系统文件,随手做bak备份,还有许多慢慢的再多加补充。

2、注意细节,细致观察,不存侥幸。

事物的细节都是挖掘不尽的,有很多东西你在你眼里以为完全掌握了,其实只要仔细观察都可以发现更深的东西,一眼扫过,你以为所有的指示灯都是正常的绿色,其实某个PCI插槽已经亮起黄灯;

一路走过,你以为所有的机器都在正常运转,其实某个服务器的风扇正在发出巨大的噪音;你以为这是一台IBM的560,其实它是属于P6系列,你以为这只是一台IBM X3650,其实它是属于M4代,挖掘细节,掌握更多的信息,处理事务也会更精确更及时。

侥幸心理是一种人类心理上和生理上的惰性,这种心理导致的故障大大小小,你觉得少巡检一次,也许不会有问题,你觉得磁阵做了raid 1,安全无忧,你觉得过往都是同样的操作,这次也会同样顺利,正是有种心态,才会放松警惕,错过避开冰山的时机。



以上,就是上周故障的一些体会,也希望自己能时常反省,做到自己所说的这些。