pytorch分布式训练 RuntimeError: all tensors must be on devices[0]

最新推荐文章于 2024-05-10 13:01:42 发布

Sesen_s

最新推荐文章于 2024-05-10 13:01:42 发布

阅读量1.5k

点赞数 3

分类专栏： Linux工程问题深度学习

本文链接：https://blog.csdn.net/weixin_40546602/article/details/106380194

版权

28 篇文章 1 订阅

订阅专栏

27 篇文章 0 订阅

订阅专栏

在pytorch分布式训练时，需要指定device_ids

一般我们指定的方式为device_ids=range(cfg.gpus), gpus为我们使用的gpu数量

model = MMDistributedDataParallel(model.cuda(),
                                      device_ids=[cfg.gpus])

但是会出现：RuntimeError: all tensors must be on devices[0]

有可能原因是CUDA_VISIBLE_DEVICES中gpu id和DataParallel中device_ids不同导致的。

解决：

为了每次都能做到匹配，使用动态确定gpu序号的方法。

model = MMDistributedDataParallel(model.cuda(),
                                      device_ids=[torch.cuda.current_device()])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注