超全超强深度学习环境搭建--cuda、cuDnn、pytorch、torch、torchvision

最新推荐文章于 2024-05-14 18:03:25 发布

五条命的猫

最新推荐文章于 2024-05-14 18:03:25 发布

阅读量2k

点赞数 3

文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.csdn.net/qq_45692007/article/details/131644727

版权

最近搭建环境搞的头的大了，网上大部分都是洗稿+抄袭，查很长时间资料才能解决问题。现在我把这环境搭建梳理一下，并给出一些问题的解决方法。

一、cuda安装

这里有个坑就是cuda不仅和cdnn版本对应，还要和torch版本对应！网上教程都是说只看【驱动版本】和【cuda支持版本上限】但是还要去https://download.pytorch.org/whl/torch_stable.html这个网站查一下有没有你所下载cuda版本对应的torch版本，比如说就没有cu112对应的torch版本。

cu113/torch-1.10.2%2Bcu113-cp36-cp36m-win_amd64.whl
参数含义：cu113表示需要cuda11.3，torch版本是1.10,2，cp36指需要的是python3.6，win系统。

这个网站上的资源名称有的是cpu开头有的是cu开头，区别是：cpu开头的torch不支持gpu计算，只有cu开头的资源才支持使用gpu训练数据。

1、查询驱动版本和cuda支持版本上限

cmd中输入nvidia-smi可以看到驱动器版本和cuda版本。！！注意：这里的cuda版本不是电脑中下载的版本，而是电脑支持的最高版本。
在这里插入图片描述

2、选定cuda版本

去https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html查询本机驱动版本所支持的cuda。！！注意：选择下载的版本不能超过上个步骤查询的电脑支持的cuda的最高版本，而且一定要选择一个有对应torch版本的cuda进行下载！！我第一次下载的cuda114，但是没有114对应的torch版本，还是无法搭建环境！！
在这里插入图片描述

3、下载cuda并安装

完成上述版本的确定后，去https://developer.nvidia.com/cuda-toolkit-archive下载cuda，如果不是第一次下载cuda了，也不用卸载原来的版本，直接选精简安装就好，因为会出现两个版本的文件夹，所以这个不用担心。
在这里插入图片描述
接着在环境变量的系统变量中添加路径

4、检查cuda是否安装成功

在cmd中输入nvcc --version查看版本号，输入set cuda查看设置的CUDA环境变量。

二、cuDnn安装

1、查看cuda版本对应的cuDNN

去https://tensorflow.google.cn/install/source_windows?hl=zh-cn#cpu查看所下载cuda对应的cuDnn
在这里插入图片描述

2、下载cuDNN

下载地址：https://developer.nvidia.com/rdp/cudnn-archive

3、安装配置cuDNN

先把下载的 cuDNN 解压缩，解压后，有三个文件夹，把三个文件夹拷贝到对应cuda版本的安装目录下；如下图，其中的v11.0就是下载的cuda的版本号。拷贝时会提示有同名的现象，不用管，直接确定。
在这里插入图片描述在系统环境变量中的 path添加以下路径：

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\include
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\lib
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\libnvvp

在这里插入图片描述

4、检查cuDnn是否安装成功

进入到cuda对应版本的 …\extras\demo_suite路径下，然后在地址栏输入cmd后按下回车，分别执行
.\bandwidthTest.exe和.\deviceQuery.exe
输入的内容最下面出现Result = PASS字样就是成功。
在这里插入图片描述

三、torch安装

这里要先去安装anaconda，就是你可以把anaconda看成一个存放各种虚拟环境的仓库，每个虚拟环境之间是独立的，每个虚拟环境中可以存放各种资源包，比如torch、 NumPy等。举个例子：这个仓库中，我存放了一个名叫dhhzstsl的虚拟环境，我可以在在这个环境中下载Numpy资源包，而且dhhzstsl这个虚拟环境中的包不会和其他环境的资源包产生冲突。【这里说的资源包是import xxx的xxx】

1、创建、激活环境

创建环境：conda create -n unet python==3.7.0
注意：环境名字自定，这里我创建了一个名为unet的环境，Python版本选择的是3.7，推荐3.6以上
激活环境：conda activate unet

2、配置环境

进入pytharm->settings->Python interpreter
在这里插入图片描述选择anaconda下创建的unet环境中的python.exe

3、torch离线包安装

推荐最为稳妥的方法，就是下载离线whl然后导入到环境中。
在https://download.pytorch.org/whl/torch_stable.html
下载torch，一定要看准cuda对应的torch版本，比如下图资源就是要下载win操作系统下，python=3.7、cuda=11.0，对应的torch=1.7.1

【torch、torchvision、torchaudio】版本对应关系，实测cuda==11.0，torch=1.7.1，torchvision=0.8.2对应关系正确。
https://blog.csdn.net/qq_38308388/article/details/130947484
在这里插入图片描述然后进入unet环境输入pip install whl的路径

四、检测是否可以用GPU训练

在pytharm的console控制台输入import torch
然后输入print(torch.cuda.is_available())如果输出True则成功。当然还可以看torch的版本1.7.1+cu110
在这里插入图片描述

五、torchvision安装

torchvision的安装和三（3）torch离线包安装的过程一样，还是要注意对应的版本。
【torch、torchvision、torchaudio】版本对应关系，实测cuda==11.0，torch=1.7.1，torchvision=0.8.2对应关系正确。

https://blog.csdn.net/qq_38308388/article/details/130947484

如果安装完torchvision报错ModuleNotFoundError: No module named ‘torch.fx‘

ModuleNotFoundError: No module named ‘torch.fx‘

应该就是下载的torchvision和torch版本不对应，在anaconda中进入对应的环境输入pip list查看当前环境中的资源包。找到torch和torchvision的版本，如果不对应就pip unintall torchvison卸载torchvision，去https://download.pytorch.org/whl/torch_stable.html下载对应的torchvision离线whl包。注意：是torchvision
在这里插入图片描述

六、几个重要的对应关系的网站和资源

（1）torch、torchvision等whl资源下载：https://download.pytorch.org/whl/torch_stable.html–用于①查找有没有cuda版本对应的torch版本，别下载完cuda才发现没有对应版本的torch。②下载whl资源
（2）cuda和cuDNN对应关系：https://tensorflow.google.cn/install/source_windows?hl=zh-cn#cpu
（3）torch、torchvision、torchaudio版本对应关系：https://blog.csdn.net/qq_38308388/article/details/130947484

五条命的猫

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
超全超强深度学习环境搭建--cuda、cuDnn、pytorch、torch、torchvision

最近搭建环境搞的头的大了，网上大部分都是洗稿+抄袭，查很长时间资料才能解决问题。现在我把这环境搭建梳理一下，并给出一些问题的解决方法。
复制链接

扫一扫