感觉这里踩了一个大坑....
我先是终端输入nvidia-smi,显示
Command 'nvidia-smi' not found, but can be installed with:xxx
驱动掉了,重新安装驱动,见我上一篇博客
然后记得之前下载过cuda,但是终端输入nvcc --version,显示没有,让我安装cuda toolkit
nvcc --version
Command 'nvcc' not found, but can be installed with:
sudo apt install nvidia-cuda-toolkit
(奔溃ing)
python
Python 3.11.7 (main, Dec 15 2023, 18:12:31) [GCC 11.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import torch
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named 'torch'
我可能是在另一个不是base的anaconda环境中安装了pytorch,问了gpt说:PyTorch安装在一个名为xxx
的conda
环境中,但是当你进入Python解释器时,环境似乎并未激活。这可能导致无法找到torch
模块。
查看/usr/local/路径下有没有cuda,我有一个,但是再下一级却没有bin、lib64等文件夹,感觉好奇怪....
nvidia-smi查看能安装的最高cuda版本:
step1:添加公钥&CUDA存储库
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/ /"
sudo apt-key adv --fetch-keys https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub
step2:更新APT包索引
sudo apt-get update
step3:安装CUDA 11.4
sudo apt-get -y install cuda-11-4
step4:设置环境变量
打开.bashrc,
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.4/lib64
export PATH=$PATH:/usr/local/cuda-11.4/bin
export CUDA_HOME=/usr/local/cuda-11.4
source ~/.bashrc
step5:重启
sudo reboot
step6:验证安装
nvidia-smi
nvcc --version
不知道为什么输入nvidia-smi,显示的cuda版本和之前不一样了,难道是更新了驱动所以支持的cuda最高版本变高了?
后面有问题就再解决吧..
ps:
nvidia-smi
nvidia-smi
显示的CUDA版本是指你的NVIDIA驱动程序支持的最高CUDA版本。这个工具主要用于查询和管理NVIDIA GPU设备,它的输出包括驱动程序版本、CUDA版本、GPU型号和使用情况等信息。nvidia-smi
的CUDA版本信息并不代表你实际安装的CUDA Toolkit版本,而是表示你的GPU驱动程序兼容的CUDA Runtime版本。
nvcc --version
nvcc --version
显示的CUDA版本是你实际安装的CUDA Toolkit版本。nvcc
是CUDA编译器驱动程序,它用于编译CUDA C/C++代码。这个版本信息告诉你当前系统中安装的CUDA Toolkit的具体版本。