nvidia-smi和nvcc--version报错

感觉这里踩了一个大坑....


我先是终端输入nvidia-smi,显示

Command 'nvidia-smi' not found, but can be installed with:xxx

驱动掉了,重新安装驱动,见我上一篇博客


然后记得之前下载过cuda,但是终端输入nvcc --version,显示没有,让我安装cuda toolkit

nvcc --version

Command 'nvcc' not found, but can be installed with:

sudo apt install nvidia-cuda-toolkit

(奔溃ing)

python
Python 3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import torch
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named 'torch'

我可能是在另一个不是base的anaconda环境中安装了pytorch,问了gpt说:PyTorch安装在一个名为xxxconda环境中,但是当你进入Python解释器时,环境似乎并未激活。这可能导致无法找到torch模块。

查看/usr/local/路径下有没有cuda,我有一个,但是再下一级却没有bin、lib64等文件夹,感觉好奇怪....


nvidia-smi查看能安装的最高cuda版本:

step1:添加公钥&CUDA存储库

sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/ /"
sudo apt-key adv --fetch-keys https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub

step2:更新APT包索引

sudo apt-get update

step3:安装CUDA 11.4

sudo apt-get -y install cuda-11-4

step4:设置环境变量

打开.bashrc,

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.4/lib64
export PATH=$PATH:/usr/local/cuda-11.4/bin
export CUDA_HOME=/usr/local/cuda-11.4
source ~/.bashrc

step5:重启

sudo reboot

step6:验证安装

nvidia-smi
nvcc --version

不知道为什么输入nvidia-smi,显示的cuda版本和之前不一样了,难道是更新了驱动所以支持的cuda最高版本变高了?

后面有问题就再解决吧..


ps:

nvidia-smi

nvidia-smi显示的CUDA版本是指你的NVIDIA驱动程序支持的最高CUDA版本。这个工具主要用于查询和管理NVIDIA GPU设备,它的输出包括驱动程序版本、CUDA版本、GPU型号和使用情况等信息。nvidia-smi的CUDA版本信息并不代表你实际安装的CUDA Toolkit版本,而是表示你的GPU驱动程序兼容的CUDA Runtime版本。

nvcc --version

nvcc --version显示的CUDA版本是你实际安装的CUDA Toolkit版本。nvcc是CUDA编译器驱动程序,它用于编译CUDA C/C++代码。这个版本信息告诉你当前系统中安装的CUDA Toolkit的具体版本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值