问题描述
2台AIX小机双HBA连接两个思科光交,存储AB各出4根线到2个光交。
1、主机共8条链路,主机不能完全识别所有链路
UltraPath CLI #1 >upadm show phypath
-------------------------------------------------------------------------------------------------------------------------------
PhyPath ID Initiator Port Array
Name Controller Target
Port PhyPath State Check Type Check
State Port Type
0
10000090fa714d86 Huawei.Storage
0B 2418643e8c4ac258
Enabled
--
--
FC
1
10000090fa716e44 Huawei.Storage
0A 2409643e8c4ac258
Enabled
--
-- FC
2
10000090fa716e44 Huawei.Storage
0A 2209643e8c4ac258
Enabled
--
--
FC
2、重启操作系统后发现所有映射的磁盘丢失了
GUXPPA_DB_D10#[/]lspvhdisk0 00f977708e5f96c7
rootvg
active
hdisk2 00f9776e62abbbd3
None
hdisk1 00f9776e98918f5a
rootvg
active
hdisk3 00f9776e62abbceb
None
GUXPPA_DB_D10#[/]lsdev -Ccdisk
hdisk0 Available 00-00-00 SAS Disk Drive
hdisk1 Available 03-00-00 SAS Disk Drive
hdisk2 Available 00-00-00 SAS Disk Drive
hdisk3 Available 03-00-00 SAS Disk Drive
hdisk4 Defined 01-00-02 Huawei XSG1 FC Disk Drive
hdisk5 Defined 01-00-02 Huawei XSG1 FC Disk Drive
hdisk6 Defined 01-00-02 Huawei XSG1 FC Disk Drive
hdisk7 Defined 01-00-02 Huawei XSG1 FC Disk Drive
hdisk8 Defined 01-00-02 Huawei XSG1 FC Disk Drive
3、执行cfgmgr扫盘后正常识别磁盘,但是有链路丢失情况
GUXPPA_DB_D10#[/tmp/yxq]cfgmgr
-vGUXPPA_DB_D10#[/]lsdev -Ccdisk
hdisk0 Available 00-00-00 SAS Disk Drive
hdisk1 Available 03-00-00 SAS Disk Drive
hdisk2 Available 00-00-00 SAS Disk Drive
hdisk3 Available 03-00-00 SAS Disk Drive
hdisk4 Available 01-00-02 Huawei XSG1 FC Disk Drive
hdisk5 Available 01-00-02 Huawei XSG1 FC Disk Drive
hdisk6 Available 01-00-02 Huawei XSG1 FC Disk Drive
hdisk7 Available 01-00-02 Huawei XSG1 FC Disk Drive
hdisk8 Available 01-00-02 Huawei XSG1 FC Disk Drive
GUXPPA_DB_D10#[/]lspath -l hdisk4
-F"name:parent:connection:status"
hdisk4:fscsi0:2218643e8c4ac258,1000000000000:Enabled
hdisk4:fscsi0:2418643e8c4ac258,1000000000000:Enabled
hdisk4:fscsi0:2408643e8c4ac258,1000000000000:Enabled
hdisk4:fscsi2:2419643e8c4ac258,1000000000000:Enabled
hdisk4:fscsi2:2219643e8c4ac258,1000000000000:Enabled
hdisk4:fscsi2:2409643e8c4ac258,1000000000000:Missing
hdisk4:fscsi2:2209643e8c4ac258,1000000000000:Enabled
hdisk4:fscsi0:2208643e8c4ac258,1000000000000:Enabled
4、删掉所有磁盘,再重新扫盘设备正常
rmdev -dl hdisk4rmdev -dl hdisk5rmdev -dl hdisk6rmdev -dl hdisk7rmdev -dl hdisk8GUXPPA_DB_D10#[/tmp/yxq]sh
y1.shhdisk4 deletedhdisk5 deletedhdisk6 deletedhdisk7 deletedhdisk8 deletedGUXPPA_DB_D10#[/tmp/yxq]cfgmgr
-vGUXPPA_DB_D10#[/tmp/yxq]lspvhdisk0
00f977708e5f96c7
rootvg
activehdisk2
00f9776e62abbbd3
Nonehdisk1
00f9776e98918f5a
rootvg
activehdisk3
00f9776e62abbceb
Nonehdisk4
00f977704cc20e58
d06dbvghdisk5
00f977704cc20f96
d06dbvghdisk6
00f9776e4cc26e0d
d10dbvghdisk7
00f9776e4cc27098
d10dbvghdisk8
00f9776e62abbdb7
caavg_privateGUXPPA_DB_D10#[/tmp/yxq]lsdev
-Ccdiskhdisk0 Available
00-00-00 SAS Disk Drivehdisk1 Available
03-00-00 SAS Disk Drivehdisk2 Available
00-00-00 SAS Disk Drivehdisk3 Available
03-00-00 SAS Disk Drivehdisk4Available 01-00-02
Huawei XSG1 FC Disk Drivehdisk5 Available01-00-02
Huawei XSG1 FC Disk Drivehdisk6 Available 01-00-02
Huawei XSG1 FC Disk Drivehdisk7 Available 01-00-02
Huawei XSG1 FC Disk Drivehdisk8 Available 01-00-02
Huawei XSG1 FC Disk DriveGUXPPA_DB_D10#[/tmp/yxq]lspath
-l hdisk4 -F"name:parent:connection:status"hdisk4:fscsi0:2218643e8c4ac258,1000000000000:Enabledhdisk4:fscsi0:2418643e8c4ac258,1000000000000:Enabledhdisk4:fscsi0:2408643e8c4ac258,1000000000000:Enabledhdisk4:fscsi0:2208643e8c4ac258,1000000000000:Enabledhdisk4:fscsi2:2419643e8c4ac258,1000000000000:Enabledhdisk4:fscsi2:2219643e8c4ac258,1000000000000:Enabledhdisk4:fscsi2:2409643e8c4ac258,1000000000000:Enabledhdisk4:fscsi2:2209643e8c4ac258,1000000000000:Enabled
告警信息
无
处理过程
1、收集存储日志分析,发现主机链路有断开再接入的情况
2、日志发现主机告诉存储的主机端口属性异常。主机一会儿告诉存储它是启动器(0x00000022),一会儿又是启动器和目标器都有(0x00000032)
分析怀疑主机到交换机异常。从断开和恢复的时间(1-2分钟)来看,物理链路导致的可能性较低。应该是主机的主动行为。主机上配置了什么参数造成的,或者是主机出现异常了。
3、收集操作系统日志分析,发现主机HBA卡TME属性打开的 ,导致主机HBA卡端口属性变化,造成主机与阵列之间链路无法建立。
根因
主机HBA卡上两个端口属性在不停的变化,导致阵列与主机不能建立连接,链路减少。怀疑主机上HBA配置参数导致。和IBM确认从AIX 7开始,做HA必须要启用TME参数做集群心跳使用,不能关闭。
解决方案
1、关闭TME参数,由于客户HA环境,AIX7以后需要打开此参数做心跳,所以不能使用此方案
2、修改存储端口为目标器模式,存储端口默认是启动器和目标器都支持的模式。(修改成TGT目标器模式后,端口无法做增值特性端口)