原标题:分享那些在磁带库上爬过的坑
来自社区会员分享案例 5 则,均是磁带库日常运维中的典型故障。
在STK L180磁带库上爬过的坑
故事发生在几年前,在更换机房的一组光纤交换机的实施过程中,原光纤交换机因使用超限,决定将其更换为博科DS5100。交换机下联设备有存储、小型机、磁带库。光纤交换机使用端口zone,并反复确认了zone配置信息。切换当天,按照计划顺利实施。验证小型机和存储链路均正常。但业务验证时发现,NBU备份软件中,手动执行备份任务,有部分失败。
故障现象:
查看NBU备份软件中日志,关于执行备份任务的报错,发现在STK L180磁带库上执行的备份任务均失败。
检查过程:
首先,查看光纤链路标签,确认实施前后一致。接着,确认DS5100光纤交换机与L180磁带库的端口和ZONE划分也配置正确。然后,详细分析了交换机log信息,发现连接磁带机光纤卡的两个端口,只有FX流,没有RX数据流。
根据,以上故障现象及检查方式,基本上先排除光纤交换机和光纤链路的问题。问题聚焦在STK L180磁带库上。因平时很少出现问题,面对这台老古董,确实无从下手。
L180磁带库有3块光纤卡,其中一块为机械臂的光纤卡,另两块为磁带机的光纤卡。重新手动发起备份任务,观察老古董的工作,发现其机械臂可将磁带抓入磁带机,但两个磁带机均无法进行正常读写。备份任务无法正常执行。初步怀疑是两台磁带机的光纤卡有问题,可是磁带机上的光纤卡上连指示灯都没有,继续崩溃中。。。
硬着头皮在L180磁带机的面板中翻看信息,状态显示都正常无报错信息。继续仔细检查,发现两个磁带机的光纤卡速率speed仅为1 GBIT。 显示信息:speed : 1GBIT
1GBIT?会不会是跟新更换光纤交换机的端口速率不匹配呢?可是怎么修改磁带库的光纤卡速率呢?在面板上把所有选项翻个遍,根本没有更改端口速率的选项。心想,先不在这台老古董上浪费时间吧,去光纤交换机上改下吧。
紧接着登录到DS5100光纤交换机上,查看磁带机连接的端口模式为自适应,会不会是无法自适应1GBIT呢?决定将光纤交换机的该端口速率强制为1GBIT,修改后,重新执行备份任务,老古董的机械臂将磁带抓入磁带机中,然后就没有声音了。。。还是之前的故障现象。。。
马上跟光纤交换机厂商工程师确认,该型号交换机端口虽然可以强制1 GBIT,但硬件只能支持2 GBIT和4 GBIT以上。
看来,只能寄希望于修改这台老古董身上了,翻出已经落了灰的产品手册,看了2个多小时,终于发现了线索,L180磁带库在前面板上没有配置选项可以直接更改磁带机的光纤卡速率,只能通过修改LOOP ID值。LOOP ID 值为80,磁带机光纤卡速率为1 GBIT。Loop ID值 为126,磁带机光纤卡变为自适应。放下产品手册,赶紧跑到面板前,找到Loop ID的修改位置,将ID值改为126,磁带机的光纤卡速率变为自适应, 显示信息:speed : auto。
重新再NBU中发起备份任务,磁带机终于转动了。
(社区会员qq373793057分享)
AIX 7.1环境NBU备份Oracle rac数据库,磁带库驱动器故障导致备份失败案例
故障现象:
AIX 7.1环境下 NBU 备份oracle rac数据库时,磁带库驱动器故障导致备份失败。
报错提示为 driver load tape error。
故障原因:
根据报错信息定位由于带库驱动器无法正常装载磁带导致备份失败,通过WEB登录带库管理界面查看驱动器状态,发现带库驱动器offline状态。可以判断带库驱动器故障,同时log显示有驱动器error信息,确认驱动器故障后,在nbu Device Monitor界面禁用故障的驱动器,防止备份作业再次调起故障的驱动器,同时将驱动器里的磁带手工弹出,此时联系厂家更换驱动器,更换完成后再NBU上启用驱动器,进行作业备份,测试驱动器工作正常。
更换驱动器后备份恢复正常。
(社区会员qb306分享)
昆腾QUANTUM i40 物理带库备份失败案例
带库描述:QUANTUM i40 –HP LTO4 tape drive-head
故障现象:
win2003+NBU+昆腾i40物理带库,突然无法备份,系统能识别到带库驱动器,NBU软件也正常识别到磁带,但是无法备份。
检查过程:
1、将带库下架,拆除顶板,进行带库抓取,拿出,清洗,驱动器、机械臂、磁带物理状态检查,正常!
2、带库-SAN交换机-服务器,之间的链路状态检测,端口替换,光纤模块替换检查,正常!
3、NBU重新配置,驱动重打,还是无法备份。
最后联系昆腾原厂,现场诊断,原厂说可能是驱动器磁头磨损,带库管理界面无任何报错,最后将驱动器寄回原厂更换磁头,恢复正常!!!!
(社区会员ACDante分享)
TSM+昆腾磁带库的小案例
TSM6.3.4 +昆腾i500 环境。
故障现象:
由于带库使用昆腾i500,不属于ibm的嫡系部队,所以只能使用tsm 自动驱动程序进行驱动,开始的时候一直使用没有问题,直到有一天,其中的两个个驱动器读写报错,后来检查确认是磁带的问题,拿掉故障磁带后就好了,这时使用tsmdlst
重新使用识别扫描不好使,重启os和带库均不好使。
后来来个干脆的:
TSM服务器关闭,带库断电 10分钟,重新启动带库,服务器验证。
正常了。
再不行,我就准备杀招了(删除drive,path的定义)
这个问题啊,有可能还是tsm和带库版本兼容不太好的一面吧。
(社区会员董志卫分享)
TS3200卡带故障解决案例
机器:TS3200
管理系统:TSM
报错如下:
连接磁带库管理口状态如下:
控制器状态:
控制器1报错,显示超时查看磁带仓库分配状态:
从图中看出:控制器正在读写11仓磁带“W00007L5,且该磁带出现故障,原因应该为损坏磁带引起控制器卡带。
界面进行移动磁带,重新分配磁带,损坏磁带无法转入I/O仓
解决:
断电拆开控制器:
卡带
拔出损坏磁带后安装回控制器
重新上电,初始化需要时间
拔除损坏磁带后进行备份
2016-10-10-09.48.53
ANR0944E
QUERY PROCESS:找不到活动的进程。 (会话: 21)
2016-10-10-09.52.29
ANR2034E
QUERY EVENT:使用此条件时找不到匹配的项。 (会话: 23)
2016-10-10-09.52.29
ANR2034E
QUERY EVENT:使用此条件时找不到匹配的项。 (会话: 23)
2016-10-10-10.00.12
ANR2034E
SELECT:使用此条件时找不到匹配的项。 (会话: 21)
2016-10-10-10.00.13
ANR0944E
QUERY PROCESS:找不到活动的进程。 (会话: 21)
2016-10-10-10.09.43
ANR7808W
Sun Microsystems 库连接模块 libacs.dll 在该系统上不可用。
2016-10-10-10.09.45
ANR8470W
库 LB0.1.0.4 中驱动器 MT0.0.0.4 初试化错误。
2016-10-10-10.09.45
ANR8470W
库 LB0.1.0.4 中驱动器 MT1.0.0.4 初试化错误。
2016-10-10-10.10.00
ANR1414W
由于以前的写错误,卷 W00041L5 的访问方式是“只读的”。
2016-10-10-10.10.00
ANR1412W
卷 W00014L5 的访问方式是“unavailable”。
2016-10-10-10.10.00
ANR1412W
卷 892AABL5 的访问方式是“unavailable”。
2016-10-10-10.10.00
ANR1412W
卷 W00043L5 的访问方式是“unavailable”。
2016-10-10-10.10.00
ANR1412W
卷 W00009L5 的访问方式是“unavailable”。
2016-10-10-10.12.29
ANR0535W
节点 ORA_PRD(TDP Oracle AIX)的会话 1 的事务已失败 - 没有足够的安装点可用,不能满足请求。 (会话: 1)
2016-10-10-10.12.47
ANE4994S
TDP Oracle AIX ANU0599 TDP for Oracle: (25297138): =>(ora_prd) ANU2602E The object /adsmorc//arch_PRD_924861811_35538_1_20161010 was not found on the TSM Server (会话: 2)
2016-10-10-10.20.12
ANR2034E
SELECT:使用此条件时找不到匹配的项。 (会话: 4)
2016-10-10-10.20.14
ANR0944E
QUERY PROCESS:找不到活动的进程。 (会话: 4)
2016-10-10-10.20.26
ANR2034E
SELECT:使用此条件时找不到匹配的项。 (会话: 4)
2016-10-10-10.20.27
ANR0944E
QUERY PROCESS:找不到活动的进程。 (会话: 4)
显示失败
原因为拔插控制器之后,TSM无法直接online起控制器需要进入命令行手工执行命令online起
命令:q drvie 查看库转台
q path 路径状态
q libary
online起驱动器:update path tsmserver server1 srctype=server desttype=drive library=LB0.1.0.4 device=MT0.0.0.4 online=yes
最后TSM备份成功
(社区会员Diness分享)返回搜狐,查看更多
责任编辑: