Pytorch分布式训练报错： your module has parameters that were not used in producing loss

金在熔

于 2024-01-23 10:43:29 发布

阅读量693

点赞数 10

文章标签： pytorch 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42545475/article/details/135765515

版权

作者在租服务器进行多卡训练时遇到关于torch库的RuntimeError报错，解决方法是在`DistributedDataParallel`中设置`find_unused_parameters=True`，让系统查找未参与loss计算的参数。作者戏称此现象为“磁小轨报错”.

摘要由CSDN通过智能技术生成

租服务器跑多卡训练时遇到一个奇怪的报错，单卡时是正常的。报错信息如下：

File "/root/miniconda3/lib/python3.8/site-packages/torch/nn/parallel/distributed.py", line 873, in forward
if torch.is_grad_enabled() and self.reducer._rebuild_buckets():
RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one. This error indicates that your module has parameters that were not used in producing loss. You can enable unused parameter detection by passing the keyword argument `find_unused_parameters=True` to `torch.nn.parallel.DistributedDataParallel`,

网上可以查到的大部分解决方法和报错内容一样，让你找出这个没有参与loss计算的位置。然而这个代码我前几天刚跑过多卡，大概率不是自己的问题。我的解决过程如下：

根据报错信息，直接找到distributed.py

vim /root/miniconda3/lib/python3.8/site-packages/torch/nn/parallel/distributed.py

然后找到find_unused_parameters，改成find_unused_parameters=True，可以修改__init__里面的，也可以修改self.find_unused_parameters，总之改成True，也就是哪有问题让他找出来。然后，然后他就不报错了！？！

我愿称之为磁小轨报错。

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

金在熔 CSDN认证博客专家 CSDN认证企业博客

码龄6年

4: 原创

165万+: 周排名

26万+: 总排名

6859: 访问

: 等级

67: 积分

11: 粉丝

22: 获赞

3: 评论

23: 收藏

私信

关注

热门文章

最新评论

Pytorch分布式训练报错： your module has parameters that were not used in producing loss
CSDN-Ada助手: 恭喜您写了第四篇博客！标题看起来很有意思。对于Pytorch分布式训练报错的问题，您提供的解决方案似乎对于那些遇到相同问题的人来说非常有用。不过，我想提出一个谦虚的创作建议：是否可以在博客中添加更多背景知识，比如解释一下为什么会出现这个报错以及如何避免它。这样，读者不仅能够解决问题，还能够更全面地理解该主题。期待您未来更多优质的博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
MMdetection3d代码复现版本问题及解决方案
CSDN-Ada助手: 非常棒的博文！你对MMdetection3d代码复现版本问题的解决方案进行了很好的总结。持续创作是非常重要的，你的经验和分享对其他人来说也是非常有价值的。除了你提到的mmseg、mmcv以及mmdet版本问题，还有一些与该博文相关的扩展知识和技能，可能没有在标题和摘要中出现。例如，你可以进一步研究和了解如何使用不同的数据集进行模型训练，或者深入了解如何进行模型评估和调优。此外，你还可以探索如何将MMdetection3d与其他深度学习框架或工具集成，以便更好地应用于实际项目中。希望你能继续分享你的学习和实践经验，让更多人受益！同时，也希望你在探索MMdetection3d的新版本时能够发现更多的优势和改进。祝你好运！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Path对象报错AttributeError: ‘PosixPath‘ object has no attribute ‘endswith‘
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。