pytorch多个显卡并行训练 RuntimeError: Caught RuntimeError in replica 0 on device 0.

最新推荐文章于 2025-02-11 14:06:07 发布

liu_yuan_kai

最新推荐文章于 2025-02-11 14:06:07 发布

阅读量3.8w

点赞数 12

分类专栏： DeepLearning CODE 文章标签： python pytorch nn.DataParallel DataParallel

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liu_yuan_kai/article/details/109290375

版权

DeepLearning 同时被 2 个专栏收录

7 篇文章

订阅专栏

4 篇文章

订阅专栏

本文解决了使用torch.nn.DataParallel时遇到的RuntimeError问题。详细分析了错误原因，并提供了解决方案，即确保所有使用的模型参数都在初始化时被正确声明。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天复现并改动一份代码的时候，发生了该错误：

RuntimeError: Caught RuntimeError in replica 0 on device 0.

原代码可以再单卡上面正常运行。但因为自己的需要改成多GPU并行加载模型，然后就发生上述错误，并且还提示没有model.drop_path_prob这个属性！问题出现的原因可以看看这篇：https://blog.csdn.net/qq_30614451/article/details/106766551 简单来说：就是网络模型的某个参数复制分配到不同的GPU的时候，部分参数始终在GPU_0上

解决方案：

提前声明需要用到的模型参数，如下图最后一行

我的self.drop_path_prob这个属性，在__init__（）函数的后面有直接使用，因为python中不需要特别预定义也可以直接使用变量。

但是torch.nn.DataParallel并不认可这种没有事先声明的变量，所以其他GPU没有拷贝这个drop_path_prob模型属性变量。

仅为个人拙劣的解决方案，做个笔记 ~0.0

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。