参考了各种文章
版本:python3.8
cuda 11.7
pytorch-1.13.0
torchaudio-0.13.1
torchvision-0.14.0
版本:python3.10(和3.8的一致)
1、先看系统的cuda版本
**命令:nvidia-smi
显示:
NVIDIA-SMI 525.147.05 Driver Version: 525.147.05 CUDA Version: 12.0
CUDA Version:12.0
指的是最高支持cuda12.0的版本,并不是已经安装了cuda12.0的版本
ls -l /usr/local | grep cuda
查看该目录下有哪些cuda版本
显示:
lrwxrwxrwx 1 root root 21 2月 22 2023 cuda -> /usr/local/cuda-11.7/
drwxr-xr-x 15 root root 4096 2月 22 2023 cuda-11.7
**命令:nvcc -V
显示:
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Tue_May__3_18:49:52_PDT_2022
Cuda compilation tools, release 11.7, V11.7.64
Build cuda_11.7.r11.7/compiler.31294372_0
release 11.7, V11.7.64
表示:支持最高cuda版本为11.7
2、看清楚自己的cuda版本,在pytorch找对应版本号
1、进pytorch找对应版本号(Linux):
Previous PyTorch Versions | PyTorch
python3.10的如下:
2、进清华镜像源找对应压缩包(Linux64位)并下载:
Index of /anaconda/cloud/pytorch/linux-64/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror
下载的压缩包如下,一一对应:
python3.10的如下:
失败失败一直失败,失败如下:
1、用conda命令安装压缩包,tar.bz2和其他文件放在了其他文件夹
**命令:conda install pytorch-2.2.2-py3.8_cuda11.8_cudnn8.7.0_0.tar.bz2
显示文件路径错误PathError
2、用conda命令安装,一直显示各种警告,conda命令(参考了csdn文章),命令来自官网:
**命令:conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia
一直显示各种警告:
WARNING conda.models.version:get_matcher(546): Using .* with relational operator is superfluous and deprecated and will be removed in a future version of conda. Your spec was 1.6.0.*, but conda is ignoring the .* and treating it as 1.6.0
问大模型结果:
警告信息来自于conda包管理器,在尝试解析环境依赖关系时遇到了特定的版本规范。在您的例子中,版本规范如1.7.1.*、1.8.0.*、1.6.0.*和1.9.0.*包含了.*,这在conda中是不必要的,并且已经被标记为不推荐使用和将在未来的版本中移除。
尝试加镜像源(!!!全是win系统,地址不对):
清华镜像
https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/win-64/
失败太多,清理一下缓存
**命令:conda clean --packages
3、用pip命令安装
不理解上面的警告,找到历史版本,cuda11.7版本的,换pip:
**命令:pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
显示:
Downloading torch-2.0.1-cp38-cp38-manylinux1_x86_64.whl (619.9 MB)
!!!!!应该可行但超时(网络不稳)
ReadTimeoutError
问大模型结果:
从files.pythonhosted.org这个服务器读取数据时发生了超时。通常意味着pip在设定的时间内没有收到服务器的响应。
尝试加镜像源,依旧报错
pip尝试安装包,没动静!!!
**命令:pip install pytorch-2.2.2-py3.8_cuda11.8_cudnn8.7.0_0.tar.bz2
尝试大模型命令,没动静!!!
**命令:conda install pytorch torchvision torchaudio cudatoolkit=11.7 -c pytorch
成功了!如下:
重新尝试安装包
在下载三个文件的文件夹内打开终端,并激活安装的环境
**命令:conda activate 你自己的环境名
**命令:conda install pytorch-1.13.0-py3.8_cuda11.7_cudnn8.5.0_0.tar.bz2
查看列表出现pytorch,import torch
但import torch时显示
Traceback (most recent call last):
OSError: libmkl_intel_lp64.so: cannot open shared object file: No such file or directory
以为是其他两个文件没安装的原因
安装其他两个文件:
conda install torchaudio-0.13.1-py38_cu117.tar.bz2
conda install torchvision-0.14.0-py38_cu117.tar.bz2
问大模型结果:
找不到libmkl_intel_lp64.so这个共享库文件。你可以尝试安装Intel MKL库来解决这个问题。在Ubuntu系统中,可以使用以下命令安装:
**命令:sudo apt-get install libmkl-rt
再次import torch
显示:ModuleNotFoundError: No module named 'typing_extensions'
**命令:pip install typing-extensions
再次import torch,
**命令:import torch
torch.cuda.is_available()
print(torch.__version__)
完成!