怪异的事情年年有只是最近比较多。
上次在山西网通是os的系统问题加上诡异的磁带的损坏导致的io的问题,tsm在遇到这些io的问题之后总是在有一些retry的机制。但是上次怎么样也是带库的硬件的显式的报错了。最后通过label libv search=b的方式,单独打带,将问题终于最终定了位。
可是这次在一个地市的商业银行。
事情比较怪异
事情比较怪异,aix5307、ts3200、tsm543……再label的时候就是报io的错误
ANR8311E An I/O error occurred while accessing drive DR02 (/dev/rmt2) for OFFL operation, errno = 46.
ANR8300E I/O error on library 32LIB (OP=00006C03, CC=207, KEY=05, ASC=21, ASCQ=01,
SENSE=70.00.05.00.00.00.00.0A.00.00.00.0-
0.21.01.00.00.00.00.,
将带库的驱动打到 最新——依旧
ts3200还没有最新的firmware下载,直连——依旧
将tsm的定义,path删除,重置;ok了,可以label和sel;但是dsmserv重启之后——错误依旧
反复尝试,发现,将配置删除重新设置就好了,只要重启服务或者machine,就错误依旧。
此时发现errpt -dH 报了关于smc0的错误,将系统的snap抓给ibm。
没有一次性解决问题
由于这次我需要要用这个tsm server环境作为dest server来和source tsm server之间做data 的迁移,所以我使劲想办法能不能将问题绕过去,我实在不想为了这么点事情再出来一次
赶紧下了tsm 5.5, 下了pack1开始安装。
安装配置过程中又报错io的错误,此时,errpt -dH 报了关于smc0的错误,但是tsm的libr似乎retry了一下,libr 又 ready for operation了。Nnd!
但是,从此时开始,就不再报io的错误,一切正常。将tsm server重启n次,也ok了。
狠怪,要么在tsm 55的配置过程中,从不报错,能说明问题,但是还是报了次错误。
所以,这属于有隐患。
此时,IBM的菜鸟说是无需升级hba的fw,说是跟san switch的设置有关系。就在此时,银行考虑已经开奥运会了,于是要叫硬件供应商的人来一起解决。
平生第一次一次性没有解决问题。
猜测结论
结论之猜测:
是san switch的设置问题或者是hba的问题
但是也有可能就是带库的fw问题
总之狠怪异
下次准备带个4gb的for win的hba,再win的环境中直连这个带库,看看会怎么样,就用最新的tsm551的介质,如果还有问题,就直接压着ibm来现场解决问题了。
顺便就是目前ibm市场的带库质量之内幕非常复杂,厂商出来的当然是好的,但是。。。
我对其中太了解了,所以人在江湖,不能明示。只能将问题确凿地排查定位,别回头被别人解决了,贻笑大方
san的switch那边还裹着别的公司的什么powerpath在里面,不能不说客户公司也是有问题的,不想理他的环节,当然本来这个事情也是他们负责,我只是负责tsm的数据的异构的迁移,但是为了追进度,才玩命的折腾这个事情
这次比较烦躁。奉劝大家或者各承包商,把事情想清楚了再进场,否则,到了现场,为了进度,帮别人干事情,否则出差一次白费,成本就是这样产生了,利润就是这样减少了。