文章目录
背景
2种场景:
- 如果网卡没有插网线场景
- 如果插了网线但是对端网卡出现异常(比如pcie异常造成网卡无法协商link)
查看方法
ip addr show
以ConnectX-5为例:(FW16.xx.xx)
未插网线效果
插入网线后效果
其他
- CARRIER 载波,载体。aircraft carrier航空母舰航母彩市航母舰
- 可以设置secureCRT自动着色
绿色: <BROADCAST,MULTICAST,UP
红色: <NO-CARRIER,BROADCAST,MULTICAST
背后的分析
遇到问题:
背景是服务器slot1是CX5网卡,slot2是CX4网卡。更换了Mellanox驱动,ib_write_bw打流不对。想起服务器启动报错pcie slot2异常。使用ib_write_bw一直报错,排除了rdma_cm的问题,怀疑是链路异常,查看ib_core无异常。使用neohost报错(-E- Failed to Identify Device: 41:00.0),怀疑链路异常,ip add show看到都是:NO-CARRIER(no carrier没有载波讯号)。查看CX4和CX5互联。切换CX5 port1对接CX5 port2。再次打流查看报错,看到 Unable to Connect the HCA’s through the link
,想到建链的IP地址不是网口配置IP而是bcm的IP,配置mlx5网卡的IP,使用新IP测试tcp建链成功,但是rdma_cm建链失败。rdma_cm建链分析还是使用了bcm的IP,修改为正确的IP后解决。
插上网线后,报错:Unable to Connect the HCA’s through the link
报错信息:
看到有 Unable to Connect the HCA’s through the link,怀疑链路问题。
rdma_cm建链失败,报错Received 10 times ADDR_ERROR
报错:Received 10 times ADDR_ERROR
提示地址异常。
rdma_cm建链分析还是使用了bcm的IP,修改为正确的IP后解决。
后记
本文背后是记录一次以前可以正常工作的CX4和CX5服务器,在升级Mellanox网卡驱动后,出现建链失败的分析。本以为是修改驱动引起的,结果是硬件异常问题。虽然中间夹杂不少Mellanox驱动加载关联的一些问题,本文主要还是记录硬件相关的问题。
后期升级网卡驱动前,可以先进行对比摸底测试,确保benchmark。
IB通信依赖多层,IP层地址要对,物理层要链接,链路层要工作。定位IB失败就能够通过这些方式一步步顺藤摸瓜解决。
IB的通信尤其是ROCe仅仅是借用IP七层模型。进行建链一定要是和网卡绑定的端口IP进行建链。否则会报错(Received 10 times ADDR_ERROR)