Pytorch CUDA的一些报错及解决方案

本文介绍了在使用PyTorch进行CUDA分布式训练时可能遇到的报错及解决办法,包括设置环境变量nproc_per_node和local_world_size与GPU数量匹配,以及如何处理cuda runtime error (101)。当遇到无效设备序号或无法调用显卡的问题时,可能是由于驱动版本不匹配,可通过调整PyTorch版本来解决。
摘要由CSDN通过智能技术生成
  • CUDA的分布式训练

torch._C._cuda_setDevice(device)
RuntimeError: cuda runtime error (101) : invalid device ordinal at /opt/conda/conda-bld/pytorch_1595629427478/work/torch/csrc/cuda/Module.cpp:59

解决办法:

在.sh脚本的时候,需要将环境中存在的node数(对于单机多卡来说,就是GPU的数量)设置匹配。也就是说,环境中有多少张卡,node数就应该等于多少。

python -m torch.distributed.launch --nproc_per_node=4 --use_env train.py --batch_size 4

推荐用法是nproc_per_node和local_world_size 设置和CUDA_VISIBLE_DEVICES的数量一致。参考链接:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值