零、开发环境
操作系统:Ubuntu 24.04
CPU:Intel i5-9300
GPU:NVIDIA GeForce GTX 1650
一、显卡驱动安装
打开“软件与更新”中的”附加驱动“(additional driver),直接点击第一个带有test的驱动,然后再重启
使用命令查看驱动安装是否成功
nvidia-smi
二、对应版本CUDA
查看驱动所对应的版本nvidia-smi
进入cuda官方下载地址https://developer.nvidia.com/cuda-toolkit-archive下载并安装,按照官网的提示操作
两条命令,执行第二条命令之后会出现安装选项,依次选择continue,输入accept,然后勾选安装内容,一般情况下驱动都已经安装,可以取消勾选,然后可以直接install
wget https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.runsudo
sh cuda_12.2.0_535.54.03_linux.run
接下来配置cuda的环境变量,首先打开文件sudo vim ~/.bashrc
,在文件的末尾加上语句(根据自身的文件名修改命名)
export PATH=/usr/local/cuda-12.2/binKaTeX parse error: Expected '}', got 'EOF' at end of input: {PATH:+:{PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64KaTeX parse error: Expected '}', got 'EOF' at end of input: …LIBRARY_PATH:+:{LD_LIBRARY_PATH}}
export CUDA_HOME=/usr/local/cuda-12.2
然后更新环境变量source ~/.bashrc
,使用命令nvcc -V
验证是否安装成功
三、对应版本NCCL
在英伟达官网https://developer.nvidia.com/nccl/nccl-legacy-downloads,根据cuda的版本下载对应的nccl库
根据官网文档上的步骤安装nccl
使用网络安装,执行命令
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
sudo apt-get update
确认安装的版本
dpkg -l | grep nccl
四、openmpi
安装openmpi
sudo apt-get update
sudo apt-get install openmpi-bin openmpi-doc libopenmpi-dev
验证是否成功
mpirun --version
五、gcc、g++与CUDA对应
检查与cuda适配的gcc、g++版本
安装对应版本的gcc、g++
sudo apt-get install gcc-12
sudo apt-get install g++-12
为nvcc编译器指定特定版本的gcc
sudo ln -s /usr/bin/gcc-12 /usr/local/cuda/bin/gcc
sudo ln -s /usr/bin/g++-12 /usr/local/cuda/bin/g++
结语
至此可以顺利在自己的电脑中跑nccl和nccl-test的官方案例了