如何通过命令行查看Mellanox网卡是否插上网线以及遇到报错(Unable link和Received ADDR_ERROR)处理办法?(ip addr show)

背景

2种场景:

  1. 如果网卡没有插网线场景
  2. 如果插了网线但是对端网卡出现异常(比如pcie异常造成网卡无法协商link)

查看方法

ip addr show

以ConnectX-5为例:(FW16.xx.xx)
在这里插入图片描述

未插网线效果

在这里插入图片描述

插入网线后效果

在这里插入图片描述

其他

  • CARRIER 载波,载体。aircraft carrier航空母舰航母彩市航母舰
  • 可以设置secureCRT自动着色
    绿色: <BROADCAST,MULTICAST,UP
    红色: <NO-CARRIER,BROADCAST,MULTICAST
    在这里插入图片描述

背后的分析

遇到问题:
背景是服务器slot1是CX5网卡,slot2是CX4网卡。更换了Mellanox驱动,ib_write_bw打流不对。想起服务器启动报错pcie slot2异常。使用ib_write_bw一直报错,排除了rdma_cm的问题,怀疑是链路异常,查看ib_core无异常。使用neohost报错(-E- Failed to Identify Device: 41:00.0),怀疑链路异常,ip add show看到都是:NO-CARRIER(no carrier没有载波讯号)。查看CX4和CX5互联。切换CX5 port1对接CX5 port2。再次打流查看报错,看到 Unable to Connect the HCA’s through the link
,想到建链的IP地址不是网口配置IP而是bcm的IP,配置mlx5网卡的IP,使用新IP测试tcp建链成功,但是rdma_cm建链失败。rdma_cm建链分析还是使用了bcm的IP,修改为正确的IP后解决。

插上网线后,报错:Unable to Connect the HCA’s through the link

报错信息:
在这里插入图片描述
看到有 Unable to Connect the HCA’s through the link,怀疑链路问题。

rdma_cm建链失败,报错Received 10 times ADDR_ERROR

在这里插入图片描述
报错:Received 10 times ADDR_ERROR
提示地址异常。
rdma_cm建链分析还是使用了bcm的IP,修改为正确的IP后解决。
在这里插入图片描述

后记

本文背后是记录一次以前可以正常工作的CX4和CX5服务器,在升级Mellanox网卡驱动后,出现建链失败的分析。本以为是修改驱动引起的,结果是硬件异常问题。虽然中间夹杂不少Mellanox驱动加载关联的一些问题,本文主要还是记录硬件相关的问题。
后期升级网卡驱动前,可以先进行对比摸底测试,确保benchmark。
IB通信依赖多层,IP层地址要对,物理层要链接,链路层要工作。定位IB失败就能够通过这些方式一步步顺藤摸瓜解决。
IB的通信尤其是ROCe仅仅是借用IP七层模型。进行建链一定要是和网卡绑定的端口IP进行建链。否则会报错(Received 10 times ADDR_ERROR)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值