参考
https://blog.csdn.net/qq_41475067/article/details/123086190
https://blog.csdn.net/Jialins_blog/article/details/126674488
1. 查看cuda安装目录
whereis cuda
# cuda: /usr/lib/cuda /usr/include/cuda.h /usr/local/cuda
2. 查看cuda版本
cat /usr/local/cuda/version.txt
# CUDA Version 11.0.207
注意:网上还有一种利用nvidia-smi查看cuda版本号,但是这个命令显示的是nvidia显卡最高支持的cuda版本,因此用这个命令查询到的并不是运行时的cuda版本号。
3. 下载NCCL
下载地址:https://developer.nvidia.com/nccl/nccl-legacy-downloads
指定版本为:不确定系统,本地安装
下载目录为:/usr/local
#进入到下载目录
cd /usr/local
#解压下载的nccl压缩包
sudo tar -xvf nccl_2.15.1-1+cuda11.0_x86_64.txz
4. 安装nccl
1. 查看解压后的nccl文件夹的内容
# 查看解压后的nccl文件夹的内容
ls /usr/local/nccl_2.15.1-1+cuda11.0_x86_64
2. 将 nccl 目录下的 include 和 lib 文件夹下的文件复制到cuda目录下
sudo cp -r include/* /usr/local/cuda-11.0/include
sudo cp -r lib/* /usr/local/cuda-11.0/lib64
3. 建立软连接
cd /usr/local/cuda-11.0/lib64
ls libnccl*
# 删除原有文件
sudo rm libnccl.so libnccl.so.2
# 创建软连接
sudo ln -s libnccl.so.2.15.1 libnccl.so.2
sudo ln -s libnccl.so.2 libnccl.so
# 查看软链接是否创建成功
ls
将库路径添加到LD_LIBRARY_PATH 环境变量或将其注册到`/etc/ld.so.conf
$ export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/nccl_2.15.1-1+cuda11.0_x86_64/lib