CUDA安装版本出现驱动mismatch问题

恭仔さん

已于 2024-09-14 12:17:22 修改

阅读量484

点赞数 3

文章标签： cuda

于 2024-09-14 10:40:24 首次发布

本文链接：https://blog.csdn.net/cold_code486/article/details/142251644

版权

问题描述

在给V100显卡集群安装cuda11.8版本后出现nvidia指令调用与NVML版本不匹配问题
nvidia-smi
Failed to initialize NVML: Driver/library version mismatch
在这里插入图片描述

解决方式

Step1 查看显卡驱动

dpkg -l | grep nvidia

在这里插入图片描述发现显卡驱动程序有两个版本：535.104.05、520.61.05
一般只要保留一个即可

Step 2 查看系统NVRM版本

cat /proc/driver/nvidia/version

在这里插入图片描述

Step 3 卸载nvidia

sudo apt-get purge nvidia*

Step 4 重装驱动

https://download.nvidia.com/XFree86/Linux-x86_64/
在上述地址中找到自己想要安装的驱动版本号
作者这里选择了535.129.03

wget https://download.nvidia.com/XFree86/Linux-x86_64/535.129.03/
bash NVIDIA-Linux-x86_64-535.129.03.run

常用显卡指令

# 查看主机已有cuda版本
ls -l /usr/local | grep cuda
dpkg -l | grep cuda
# 安装特定cuda版本
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-ubuntu2004-11-8-local_11.8.0-520.61.05-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-8-local_11.8.0-520.61.05-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-11-8-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda