Pytorch CUDA的一些报错及解决方案

weixin_42050524

已于 2023-01-09 11:33:00 修改

阅读量895

点赞数 1

分类专栏： Pytorch 文章标签： python pytorch

于 2023-01-03 14:12:36 首次发布

本文链接：https://blog.csdn.net/weixin_42050524/article/details/128532177

版权

本文介绍了在使用PyTorch进行CUDA分布式训练时可能遇到的报错及解决办法，包括设置环境变量nproc_per_node和local_world_size与GPU数量匹配，以及如何处理cuda runtime error (101)。当遇到无效设备序号或无法调用显卡的问题时，可能是由于驱动版本不匹配，可通过调整PyTorch版本来解决。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CUDA的分布式训练

torch._C._cuda_setDevice(device)
RuntimeError: cuda runtime error (101) : invalid device ordinal at /opt/conda/conda-bld/pytorch_1595629427478/work/torch/csrc/cuda/Module.cpp:59

解决办法：

在.sh脚本的时候，需要将环境中存在的node数(对于单机多卡来说，就是GPU的数量)设置匹配。也就是说，环境中有多少张卡，node数就应该等于多少。

python -m torch.distributed.launch --nproc_per_node=4 --use_env train.py --batch_size 4

推荐用法是nproc_per_node和local_world_size 设置和CUDA_VISIBLE_DEVICES的数量一致。参考链接：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_42050524

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Pytorch RuntimeError: No CUDA GPUs are available解决方案

weixin_43178406的博客

04-07

8万+

本文主要介绍了使用Pytorch产生错误提示：RuntimeError: No CUDA GPUs are available的解决方案，希望能对使用Pytorch的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案 2.1 步骤一 2.2 步骤二 2.3 步骤三

PyTorch DataLoader 报错 Segmentation fault (core dumped) 的原因及解决方案

沉迷单车的追风少年

04-28

1961

其他出core的方法都可以通过这个方法来排查，查看出core的具体原因。这里是因为torch的版本和CUDA的版本不匹配导致的错误。Pytorch DataLoader 读取数据。

1 条评论您还未登录，请先登录后发表或查看评论

Pytorch load深度模型时报错：RuntimeError: cuda runtime error (10) : invalid device ordinal

yinhui_zhang的博客

01-21

1万+

问题背景和描述：　　我是在服务器上用显卡２上训练我的模型，但是模型还在继续跑，所以我只能在其他显卡上重新做测试实验看效果的好坏。在pytorch上重新load训练好的深度学习模型时报错：RuntimeError: cuda runtime error (10) : invalid device ordinal at torch/csrc/cuda/Module.cpp:32。 THCuda...

cuda runtime error (101) : invalid device ordinal at /opt/conda/conda-bld/pytorch_1595629403081/work

qq_35037684的博客

05-13

2489

报错： File "/opt/conda/lib/python3.7/site-packages/torch/nn/modules/module.py", line 376, in _apply param_applied = fn(param) File "/opt/conda/lib/python3.7/site-packages/torch/nn/modules/module.py", line 605, in convert return t.to(device, dtype

【Pytorch】已解决RuntimeError: CUDA error: invalid device ordinalCUDA kernel errors might be asynchronou

热门推荐

weixin_43178406的博客

07-09

6万+

本文主要介绍了RuntimeError: Cuda extensions are being compiled with a version of Cuda that does not match the version used to compile Pytorch binaries. Pytorch binaries were compiled with Cuda 11.7解决方案，希望能对使用Pytroch的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

“RuntimeError: CUDA error: invalid device ordinal”解决方法

qq_43826289的博客

07-03

8410

参考：https://blog.csdn.net/qxqxqzzz/article/details/107720675。用的Pytorch分布式代码，指定的每个节点GPU个数和你指定的GPU序号不对应（我出错的地方就是在这里）用于日常排错，自用。其他小伙伴跟我不一样的错误可以参考我给出博客地址，看看自己到底是哪里除了错误。S就只指定了两个GPU，对应不起来导致的。另：rank表示的结点之间的主、从关系。通过nnodes指定总共使用1个节点，通过。指定了该节点启3个进程，但是前面。

Pytorch 读取参数错误 RuntimeError: cuda runtime error (10) : invalid device ordinal

weixin_36670529的博客

03-23

1316

博主实在使用Pytorch分布式训练时遇到这个问题的，原因是程序中GPU数量和指定的GPU数量不一样导致的。底层查看之后，发现了问题。原来是Pytorch在参数保存的时候，会注册一个跟原来参数位置有关的location。比如原来你在服务器上的GPU1训练，这个location很可能就是GPU1了。而如果你台式机上只有一个GPU，也就是GPU0的时候，那么这个参数带进来的Location信息于你的台式机不兼容，就会发生找不到cuda device的问题了。 ...

已解决RuntimeError: CUDA error: invalid device ordinal 亲测有效！！！

m0_55927959的博客

05-08

5546

已解决RuntimeError: CUDA error: invalid device ordinal 亲测有效！！！

RuntimeError: CUDA error: invalid device ordinal

千与编程

05-20

1万+

报错原因：本地只有一块GPU卡，将GPU：1更改为GPU：0 device·：0 四张GPU卡编号:GPU:0,1, 2, 3

PyTorch Error: “RuntimeError: CUDA error: invalid device ordinal的”

BetterManPeter的博客

10-23

439

设置使用的GPU设备，此时会有个误区就是当在环境变量中指定了“CUDA_VISIBLE_DEVICES”，那么Python代码中会根据指定的GPU数量从0开始重新编号，因此代码中应该设置为。环境变量中设置了“CUDA_VISIBLE_DEVICES”，那么记得不管限定的GPU编号是多少，在代码中的编号总是从0开始的。首先在允许代码的时候通过环境变量“CUDA_VISIBLE_DEVICES=7”限定了使用的GPU，然后再在代码中通过。

pytorch 使用GPU进行神经网络训练出现问题 RuntimeError: CUDA error: invalid device ordinal

Childhood_Sweetheart的博客

03-24

2352

实验室里有两块GTX1080Ti 的显卡，一开始只是使用第一块显卡，需要在代码中加入这样一行代码： device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") 但是第一块显卡被使用了，要用第二块显卡，于是我就将代码改为： device = torch.device("cuda:1" if torch.cuda.is_available() else "cpu") 但是出现了这样的错误，在网上查阅了资料才发现需要这

当pip 安装 tensordlow 后，cudart64_101.dll出错。

qq_44218805的博客

07-30

816

当pip 安装 tensordlow 后，cudart64_101.dll出错。问题描述：Could not load dynamic library ‘cudart64_101.dll’; dlerror: cudart64_101.dll 解决方法：进入该网站。 https://cn.dll-files.com/cudart64_101.dll.html 2.直接搜索需要的.dll文件。或者选择最新的下载。 3、将下载的zip解压。 4、将cudart64_101.dll替换到你的系统路径下

安装pytorch-gpu报错

12-31

#### 错误分析与解决方案 当遇到 `OSError: [WinError 126] 找不到指定的模块` 的错误时，通常是因为缺少必要的依赖库或路径配置不当。为了确保顺利安装并运行 PyTorch GPU 版本，建议按照以下方法逐一排查和解决...