AssertionError: Invalid device id 和RuntimeError: CUDA error: invalid device ordinal

我在使用torch多卡并行时出现了这个两个问题。

##问题一:AssertionError: Invalid device id,即无效的设备id

出现的原因:结合代码解释:

import ...

os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"


model = model(...)

torch.cuda.set_device(2)
model = torch.nn.DataParrel(model, device_ids=[2,3])

错误原因:os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"这个语句将原本的divice:2和device:3的编号映射为device:0和device:1,因此在set_device时汇报错,无效的设备id

解决办法:方法一:将os.environ删除。若是某些卡被占用不得不使用os.environ来设置可用设备,则使用方法二:按照重新映射的编号进行操作,例set_device(0)

##问题二:RuntimeError: CUDA error: invalid device ordinal

出现的原因:结合代码

import ...

os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"


model = model(...)


model = torch.nn.DataParrel(model, device_ids=[2,3])

错误原因:与上文一致,os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"这个语句将原本的divice:2和device:3的编号映射为device:0和device:1,因此在执行torch.nn.DataParrel时会报错

解决办法:方法一:将os.environ删除。若是某些卡被占用不得不使用os.environ来设置可用设备,则使用方法二:按照重新映射的编号进行操作,例:

model = torch.nn.DataParrel(model, device_ids=[0,1])

推荐一篇文章,简单实现多卡并行:

https://muzhan.blog.csdn.net/article/details/109318226

https://www.codeleading.com/article/2345206500

https://blog.csdn.net/weixin_34233421/article/details/91396978

  • 11
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值