- 验证系统是否安装了NVIDIA网络适配器:
lspci -v | grep Mellanox
可以看到系统中安装了ConnectX -6网络适配器
官网
官方使用手册
- 下载驱动,ConnectX -6网络适配器的驱动版本可以使用MLNX_OFED-5.5-1.0.3.2版本
wget https://www.mellanox.com/downloads/ofed/MLNX_OFED-5.5-1.0.3.2/MLNX_OFED_LINUX-5.5-1.0.3.2-ubuntu18.04-x86_64.iso
也可以在以下链接手动下载
mlnx_ofed_download
- iso挂载
sudo mount -o ro,loop MLNX_OFED_LINUX-5.5-1.0.3.2-ubuntu18.04-x86_64.iso /mnt
- 安装
cd /mnt
sudo ./mlnxofedinstall
安装成功的界面
安装过程中可能会发生如下报错:
查看报错日志可以发现是由于默认python版本导致的,需要python默认版本为python 2.7
解决方法:
-
修改系统的python默认版本为python 2.7,可以参考该文:
切换Ubuntu默认python版本的两种方法 -
重新执行
sudo ./mlnxofedinstall
-
加载新驱动:
sudo /etc/init.d/openibd restart
sudo /etc/init.d/opensmd restart
- 查看网卡状态:
sudo hca_self_test.ofed
没有 failed 就说明驱动安装成功了。
- 一些其它查看网卡信息的命令:
ibstat
ibstatus
ibv_devinfo
ibv_devices #查看本主机的infiniband设备
ibnodes #查看网络中的infiniband设备
- 机器重启,利用ifconfig可以发现新增了一个网卡设备:
sudo reboot
ifconfig -a