你遇到的错误表明你的NVIDIA驱动程序和库版本之间存在不匹配问题。以下是解决方案步骤:
1. 检查并更新NVIDIA驱动
首先,检查你当前的NVIDIA驱动版本,然后更新到与NVML库版本匹配的驱动程序版本。
检查当前驱动版本
nvidia-smi
如果上述命令失败,可以使用以下命令来检查驱动版本:
cat /proc/driver/nvidia/version
安装或更新NVIDIA驱动
根据你的Linux发行版,使用以下命令之一来安装或更新NVIDIA驱动程序。
对于Ubuntu/Debian系统:
sudo apt update
sudo apt upgrade
sudo apt install nvidia-driver-545
对于Red Hat/CentOS系统:
sudo yum update
sudo yum install nvidia-driver-545
2. 确保CUDA Toolkit匹配
确保CUDA Toolkit的版本与你的驱动版本兼容。你可以参考NVIDIA CUDA兼容性表。
3. 重新启动系统
在更新驱动程序后,重新启动系统以确保新驱动生效:
sudo reboot
4. 检查环境变量
确保正确设置了CUDA和驱动程序的环境变量。可以在~/.bashrc
或~/.bash_profile
中添加以下内容:
export PATH=/usr/local/cuda-11.8/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
然后刷新配置:
source ~/.bashrc
5. 检查CUDA是否正确安装
重新检查CUDA是否正确安装:
nvcc --version
6. 验证CUDA和驱动
重新运行nvidia-smi
命令,确保显示正确的驱动版本和CUDA版本。
nvidia-smi