前提条件:
1、找一台装有ib网卡的服务器连接交换机,服务器需安装ib网卡驱动及MFT工具
2、准备好交换机的型号,到官网下载对应固件
注意事项:
1.如果PSID以SGN开头,说明该产品是曙光的OEM产品,可以向HPC高速网络部获取固件。如果PSID以MT开头,说明该产品是Mellanox的标准产品,可以通过官网下载固件。
2.目前经过验证的交换机最新版本及HCA固件版本如下
HCA/Switch
Firmware Version
NVIDIA Quantum-2
31.2012.4036
NVIDIA Quantum
27.2012.4036
ConnectX-7
28.37.1014
ConnectX-6
20.37.1014
Minimal MFT version
4.27.0
3.通过官网获取固件,一定要保证和查询出来的PSID一致。
4.集群内部,相同PSID的设备,一定要使用相同的固件。
一、查看交换机固件
第一步:ssh登录计算节点,查看该节点上联交换机的lid号。
第二步:执行:iblinkinfo -D 0,1 -C mlx5_0
注意:SW200-a01r1交换机即为节点a01r1n00的上联交换机。
注意:3844即为交换机SW200-a01r1的lid号。
注意:命令中的-C mlx5_0,为指定网卡的ca名称,非必须选项。
第三步:查看某个交换机的固件:flint -d lid-${交换机的lid号},mlx5_0 q
二、更新交换机IB固件
第一步:查看节点上联交换机的lid号。参考《查看交换机固件》。
第二步:查看交换机PSID。参考《查看交换机PSID》。
第三步:登录官网Updating Firmware for NVIDIA Quantum Based InfiniBand Switch Platforms获取交换机固件。
第四步:上传交换机固件,并刷新交换机固件。flint -d lid-${lid号} -i ${固件地址} -y b
第五步:重启交换机。flint -d lid-${lid号} swreset
第六步:验证交换机固件。flint -d lid-${lid号} query | grep "FW Version"
刷新交换机固件还有另外一种方法,这个方法通常用在批量刷新交换机固件的场景中。具体操作如下:
(1).启动mst服务:mst start;
(2).创建设备文件描述符:mst ib add --discover-tool "ibdiagnet mlx5_0";
(3).烧写交换机固件:flint -d /dev/mst/SW_MT54000_* -i /root/fw-Quantum-rel-27_2008_2500-SGN8790A1-001_Ax.bin burn;
(4).检查交换机固件:flint -d /dev/mst/SW_MT54000_* query | grep "FW Version"
(5).重启交换机:flint -d /dev/mst/SW_MT54000_* swreset;
第五步:重启交换机。flint -d lid-${lid号} swreset
三、交换机重命名
说明:对于一个刚出场的交换机,默认的名称为:QuantumMellanox Technologies。为了便于维护,建议对交换机做重命名操作。
第一步:部署ufm工具。tar-xvfufm-xxx.tar.gz -C /opt
第二步:登录opensm节点。
第三步:加载环境变量。exportLD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/ufm/opensm/lib
第四步:对交换机重命名。/opt/ufm/opensm/sbin/manage_the_unmanaged-l ${交换机lid号}-s -n ${交换机的名称}
第四步:验证交换机的名称。iblinkinfo-S ${交换机GUID}-C mlx5_0