pytorch多gpu训练报错：RuntimeError: Caught RuntimeError in replica 0 on device 0.

最新推荐文章于 2023-08-26 21:34:54 发布

slamdunkofkd

最新推荐文章于 2023-08-26 21:34:54 发布

阅读量1.1w

点赞数 3

分类专栏：深度学习文章标签： python pytorch 人工智能算法图卷积

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/slamdunkofkd/article/details/121629040

版权

深度学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

在进行图卷积多gpu训练的时候，报了这样的错误。

最开始版本的代码使用的是：nn.DataParallel 来进行多gpu训练。

但是其缺点也很明显，对于其维护较差，优点就是只用一行代码。

首先为什么会产生这样的错误，在于gcn对于weight和bias使用了parameter 关键词，在parallel中，无法做到对parameter的并行，导致了一些问题。

后来痛定思痛，决定替换DataParallel 为DistributedDataParallel，可参考下面链接1。

然而，没有那么顺利，替换了之后，还接着出错，发现default gpu负载较为严重，产生原因是在于torch.load的时候，自动加载到了default gpu上，可以将其改为

map_location=torch.device('cpu')

除此之外，可以加上这两句，来减少显存的使用。

torch.backends.cudnn.benchmark = True
torch.backends.cudnn.enabled = True

参考链接

1. PyTorch Parallel Training（单机多卡并行、混合精度、同步BN训练指南文档） - 知乎

2. PyTorch 有哪些坑/bug？ - 知乎用户Nr7C35的回答 - 知乎 https://www.zhihu.com/question/67209417/answer/866488638

3. pytorch多个显卡并行训练 RuntimeError: Caught RuntimeError in replica 0 on device 0._liu_yuan_kai的博客-CSDN博客

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
pytorch多gpu训练报错：RuntimeError: Caught RuntimeError in replica 0 on device 0.

在进行图卷积多gpu训练的时候，报了这样的错误。最开始版本的代码使用的是：nn.DataParallel 来进行多gpu训练。但是其缺点也很明显，对于其维护较差，优点就是只用一行代码。首先为什么会产生这样的错误，在于gcn对于weight和bias使用了parameter 关键词，在parallel中，无法做到对parameter的并行，导致了一些问题。后来痛定思痛，决定替换DataParallel 为DistributedDataParallel，可参考下面链接1。然而，没有那么顺
复制链接

扫一扫

专栏目录

slamdunkofkd CSDN认证博客专家 CSDN认证企业博客

码龄7年

55: 原创

10万+: 周排名

177万+: 总排名

13万+: 访问

: 等级

1014: 积分

29: 粉丝

41: 获赞

39: 评论

127: 收藏

私信

关注

分类专栏

论文写作 2篇
深度学习 26篇
调参 4篇
leetcode 5篇
c++ 13篇
统计机器学习 2篇
视频 3篇
python工具 8篇
考研小记 1篇

最新评论

完美解决pytorch多线程问题：Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing
Timmy__: 确实有用！点赞大佬~！
pytorch转onnx 模型输出对不齐
DDBDYX: 请问您是在哪里查询到upsample只支持nearest一种模式？
记录新的激活函数和一些tricks
TH_Frag: 请问，在改进的YOLOv5模型中含有MemoryEfficientSwish()函数，可以转成ONNX格式吗？
pytorch多gpu训练报错：RuntimeError: Caught RuntimeError in replica 0 on device 0.
Noveara: 最后的那两句是在哪里添加呢？是指模型里还是哪里，初学者不太懂，请教一下？
完美解决pytorch多线程问题：Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing
IRONFISHER: 其实只要在生成dataloader的iterator的时候把default tensor type改成floattensor就行了，在其他地方还是能用cuda.floattensorz，这样能很大的简化代码

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。