承接上文:服务器联网后安装nccl
我参考官方安装教程:https://docs.nvidia.com/deeplearning/nccl/install-guide/index.html
我直接官方英译中
2.先决条件
2.1.软件要求
·glibc 2.17 或更高版本
·CUDA 10.0 或更高版本
3.安装NCCL
3.1.ubuntu
1.安装本地 NCCL 存储库
sudo dpkg -i nccl-repo-.deb
我的cuda driver是10.1所以选择安装包 nccl-repo-ubuntu1604-2.8.3-ga-cuda10.1_1-1_amd64.deb
即在终端输入命令:sudo dpkg -isudo dpkg -i nccl-repo-ubuntu1604-2.8.3-ga-cuda10.1_1-1_amd64.deb
2. 连网,更新 APT 数据库
sudo apt update
3. 连网,使用 APT 安装 libnccl2 软件包。 此外,如果您 需要使用 NCCL 编译应用程序,您也可以安装 libnccl-dev 包。保留旧版本的 CUDA。
sudo apt install libnccl2=2.8.3-1+cuda10.1 libnccl-dev=2.8.3-1+cuda10.1
我用的是sudo apt install libnccl2 libnccl-dev,感觉它自己会找依赖版本的安装包、、就这么简单!