【Pytorch】PytorchCPU版或GPU报错异常处理（10X~4090D）

Loi_Chairman

已于 2024-04-20 23:50:29 修改

阅读量2.1k

点赞数 28

分类专栏：笔记 ==乱七八糟集合== 真·杂项文章标签： pytorch 人工智能 python gpu算力 yolov5

于 2024-04-20 23:40:42 首次发布

本文链接：https://blog.csdn.net/qq_36693514/article/details/138002343

版权

==乱七八糟集合== 同时被 3 个专栏收录

25 篇文章 0 订阅

订阅专栏

真·杂项

10 篇文章 0 订阅

订阅专栏

笔记

6 篇文章 0 订阅

订阅专栏

Pytorch为CPU版或GPU使用报错异常处理

文章目录

Pytorch为CPU版或GPU使用报错异常处理

最新买的4090d到货啦！开始快乐输出o(￣▽￣)ブ
在进行实验时想把cpu版的yolov5使用gpu来跑，结果出了巨多麻烦！
首先是切换成gpu，把pytorch及yolov5全套都安装完毕后，就只剩最后一步了
打开train.py 搜索找到device，大概在400~500行之间将default参数改为device = “0”，注意加引号，后边代表的是不写就默认用cpu（慢的要死真的还容易炸掉），写0是使用1个gpu，10X的4G也挺难绷，但是跑是没问题，4090的24G相对很棒，但尺寸or参数太大还是会炸，而且会炸出来奇怪的异常，且按下不表。
改完后然后直接运行train.py，在输出阶段如果可以看到显卡型号和GPU，说明已经成功调用GPU了
在这里插入图片描述那运算速度相当快：

但是！在此之前结果出现了错误，一大堆奇怪的报错

0.检查阶段

查看是否能使用gpu

import torch
torch.device('cpu'), torch.device('cuda'), torch.device('cuda:1') # 分别是访问CPU，访问第0个GPU，访问第1个GPU。第 𝑖 块GPU（ 𝑖 从0开始）
print(torch.cuda.device_count()) # 查询可用gpu的数量。
print(torch.cuda.is_available())# 查询gpu是否可用

看torch版本

import torch
print(torch.__version__)

1. 在conda虚拟环境中安装了torch

一般命令都可以正常使用，但是使用cuda的命令torch.cuda.is_available()则输出False。
该问题的根本原因是CUDA环境与Torch版本不匹配，因此最直接的解决方式就是使用官方推荐的版本进行适配。
查看本机安装的cuda版本，在虚拟环境下一定以nvcc -V查到的版本为主

nvcc -V

有些人可能只是cudatoolkit版本对不上，如果运气好，只针对cudatoolkit进行版本匹配即可完成，

2.卸载cpuonly

1.用conda list 看看有没有cpuonly这个包，有的话删掉，这个包是装不上gpu版本的罪魁祸首。
conda uninstall cpuonly
2.装pytorch cudatoolkit（新建一个anaconda环境，或者把环境清空,注意版本号不要写错，清华源不是很智能，一定要加上详细的版本号搭配）

conda install python==3.12
conda install pytorch==2.2.2 cudatoolkit==11.8.0
附注：pip安装方式
pip install torch==2.2.2+cu121 torchvision==0.17.2+cu121 torchaudio==2.2.2+cu121 -f https://download.pytorch.org/whl/torch_stable.html

3.从tsinghua清华源安装不完善误为cpu版本

如果想要新建环境的话直接换源处理
1.可能因conda换源的不完善
下面是完整的国内清华源文件.condarc内容，打开你的电脑里的.condarc文件直接复制就行。
ubuntu 的话命令行 sudo vim ~/.condarc可以直接打开编辑，win10的话一般在C:\Users\用户名下面。

channels:
  - defaults
show_channel_urls: true
channel_alias: http://mirrors.tuna.tsinghua.edu.cn/anaconda
default_channels:
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2

  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
custom_channels:
  conda-forge: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

2. 在conda 里搜寻可以安装的pytorch版本
更新最新版的，选择是pytorch2.2.2,python3.12,cudatoolkit11.8的搭配。

conda search pytorch

3. 选择直接安装这三个包。
注意cudatoolkit版本号可能需要精确到比如11.8才会安装的比较顺利。可以conda search cudatoolkit来查看当前库里能安装的cudatoolkit版本。

conda search cudatoolkit
conda install python==3.12
conda install pytorch==2.2.2 cudatoolkit==11.8

然后编写python代码测试下看看显卡能不能用，命令行里可以先输入python进入代码编写模式。返回Ture的话代表安装gpu版本成功。

import torch
print(torch.cuda.is_available())

4.用tsinghua清华源安装成cpu错误版本

如果发现是CPU，并且在发现前已经执行类似于下载了大量依赖，不想再重新弄的

pip install -r requirements.txt  -i https://pypi.tuna.tsinghua.edu.cn/simple

把已经安装好的cpu版本手动替换成gpu版本。

1.没有安pytorch的话不论cpugpu首先是下载，执行官方给的建议方式：
Start Locally | PyTorch
2.如果默认是用清华源下载的话可能会推送cpu版本的pytorch
3.我们可以先下载cpu的版本，然后手动替换成gpu版本。
安装完cpu版本后用import torch 实验一下，不报错的话说明cpu版本安装成功，报错的话则不能进行下一步。

import torch

4.去清华镜像下载离线安装包
不报错证明ok，那么conda成功安装完cpu的版本后，去conda清华源找到对应的pytorch gpu版本（cuda版本）
清华大学开源软件镜像站
 清华源conda 安装gpu版本的pytorch总是推送cpu版本解决办法
网站资源包比较多，可以用Ctrl+F搜索，找pytorch以及附属包点下载
5.离线安装
下载完成后，激活conda 环境， cd 到下载的文件目录，安装

conda install --offline pytorch-2.10.0-py3.6_cuda10.2_cudnn7.6.5_0.tar.bz2
conda install --offline torchaudio-0.10.0-py36_cu102.tar.bz2
conda install --offline torchvision-0.11.0-py36_cu102.tar.bz2

6.验证检查
conda list,查看是否已经被替换。替换完成就行了，不要在用conda install pytorch torchvision torchaudio cudatoolkit=10.2 指令下载了，因为conda 还是会推送cpu的包，会被替换掉。。。。。。
在这里插入图片描述
换之前，用import torch不报错，但显示无GPU可跑，仔细一看是CPU！根本跑不动一点

可能的报错情况：pytorch和CUDA版本不一致，不是最新的，直接卡住import torch，第一步就报错（见下方介绍），处理方法为全更新到最新 or 找适配cuda的pytorch版本
在这里插入图片描述
安装最新的后终于能够跑起来，不知道安装什么才匹配的不妨多下载几个试试

在这里插入图片描述
安装的是上面↑这些，失败的是下面↓这些（版本不匹配）

5.conda中torch/vision/cudatoolkit版本与本机cuda版本不配套

会爆出连import torch都打不开的情况，错误描述：

OSError: 
[WinError 126] 找不到指定的模块。Error loading 
“D:\Anaconda3\envs\MyCode\Lib\site-packages\torch\lib\caffe2_detectron_ops_gpu.dll” 
or one of its dependencies

首先可以考虑的是安装Microsoft Visual C++ Redistributable。
如果依旧未能解决。这个error提示的是找不到caffe2_detectron_ops_gpu.dll，这个文件尾缀前面加了gpu，也许是之前未安装cudatoolkit的缘故。
使用官网给的命令，重新把缺少的cudatoolkit和其他包安装一下。

conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch

注意安装的时候也是版本对应。

6.总结

通过以上应用基本上能够解决Pytorch因为清华源错误安装成为CPU版本，或者其他原因想换成GPU版本的难题。
也能适用于一些GPU版本下显示无法使用GPU，检验得到false，甚至import torch报错根本进不去检测页面的问题。
换到GPU上用4090d跑是真的迅速又开心！希望大家的烦恼也能顺利解决√

嘛，如果对您有帮助的话就开心的复制吧，整理不易转载请注明qwq！
如果有更好的建议或意见欢迎补充！
我是亓云鹏（亓Qí），努力与大家一同分享算法的快乐！

每博一图（1/1）↓
在这里插入图片描述
Reference：
清华源conda 安装gpu版本的pytorch总是推送cpu版本解决办法