Mellanox&nvidia ib高速网络异常排查FAQ

一、安装mellanox&nvidia ib网卡的服务器节点网络异常排查方法如下

1.检查ib网卡配置文件内容是否正确

2.检查核对ib线缆是否损坏或不兼容,如100G的卡用200G的线

3.检查交换机端口灯状态及服务器网卡端口灯状态

注意:网卡灯为黄色常亮,opensm服务未开启,绿色常亮说明网卡连接正常,网络如果不通,检查配置文件是否有误

 4.检查IB驱动版本:ofed_info -s

注意:如果驱动版本不一致,需要更新驱动版本。更新方法参考我其它博文。

5.检查IB固件版本:ibstat | grep ‘Firmware version’

注意:如果固件版本不一致,需要更新固件版本。更新方法参考我其它博文。

6.检查PCI_Bus_Error:dmesg | grep "PCIe Bus Error"

注意:如果有输出,则表示有异常,可以下线报修。

7.检查Hardware_Error:dmesg | grep "Hardware Error"

注意:如果有输出,则表示有异常,可以下线报修。

8.检查设备的PCIE带宽:for i in $(lspci | awk "/Mellanox/{print\$1}");do lspci -vvs $i | grep LnkSta:;done

注意:如果pcie带宽不够,则需要下线报修。

9.检查IB pci设备数:lspci | grep Mellanox

注意:如果节点上的ib pci设备数不够,则需要报修。

10.检查IB 端口数:ibstat | grep CA

注意:如果端口数异常,可以先重启一下节点,检查一下pci设备数是否正常。如果问题依然存在,考虑报修。

11.检查IOMMU:dmesg -T -L | grep -i iommu

注意:如果开启了IOMMU,则需要通过bios关闭iommu。

12.检查寻址方式:mst start;mlxconfig -y -d mlx5_0 q IB_ROUTING_MODE_P1

注意:保证寻址方式一致,推荐采用LID寻址。如果不一致,需要调整。设置方法如下: mst start;mlxconfig -y -d mlx5_0 s IB_ROUTING_MODE_P1=LID;重启生效。Ø检查PCI_WR_ORDERING: mst start; mlxconfig -d /dev/mst/mt4123_pciconf0 q PCI_WR_ORDERING

注意:如果不是force_relax(1) ,则需要修改,否则会影响性能。设置方法如下:mststart;mlxconfig -d /dev/mst/mt4123_pciconf0 set PCI_WR_ORDERING=1;重启生效。

13.检查网卡工作模式:mlxconfig -d /dev/mst/mt4123_pciconf0 query LINK_TYPE_P1

注意:部分型号是双模网卡,可以以Infiniband模式工作,也可以以以太网模式工作,具体的应用场景根据十几情况确定。修改工作模式的方法:mlxconfig -d /dev/mst/mt4123_pciconf0 set LINK_TYPE_P1=1;重启生效。

14.检查交换机固件版本:flint -d lid-${交换机lid号},mlx5_0 q

注意:如果固件版本不一致,需要更新固件版本。更新方法参考我其它博文。

  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术瘾君子1573

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值