解决使用多GPU进行训练时报错：unrecognized arguments: --local_rank 的问题

最新推荐文章于 2024-06-06 17:25:39 发布

yu3jun

最新推荐文章于 2024-06-06 17:25:39 发布

阅读量1.4k

点赞数 1

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AmbitiousTyj/article/details/134029702

版权

文章讲述了如何在新版本的PyTorch中更新训练脚本，使用torchrun替换过时的python-mtorch.distributed.launch命令，以解决训练时的报错问题。参考链接提供了解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网上运行方法都是在命令行中使用

python -m torch.distributed.launch

进行训练，而这个语句在新版本torch中已经淘汰，因此会报错，解决方法为把这句直接改成 torchrun就能成功运行，后面的内容是不变的

The error will disappear when you use torchrun instead of (the deprecated?) torch.distributed.launch. In your case python -m torch.distributed.launch --nproc_per_node=4 --master_port=27803 ... will be replaced by torchrun --nproc_per_node=4 --master_port=27803 ....

参考：https://github.com/open-mmlab/mim/issues/122

博客等级

码龄5年

20
原创

108
点赞

76
收藏

44
粉丝

关注

私信

热门文章

最新评论

解决使用meteor过程中的IOError: [Errno 32] Broken pipe报错
tomorrow..: 请问这个data/paraphrase-en.gz链接是空的，博主还有保存吗
libstdc++.so.6: version `GLIBCXX_3.4.30‘ not found 解决
烧火工～: 牛。我之前还是3.4.29找不到，找了个合适的建立软连接又给我报3.4.30找不到，直接就感觉不对了。哥，感谢分享！
self and mat2 must have the same dtype, but got Float and Half 报错解决
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
记录MinkowskiEngine 安装过程中的踩坑经历
CSDN-Ada助手: 恭喜您写了第8篇博客！记录MinkowskiEngine安装过程中的踩坑经历对其他用户来说一定非常有用。希望您能继续坚持创作，分享更多宝贵的经验和技术知识。建议您可以考虑写一些关于MinkowskiEngine的实际应用案例或者深入的技术分析，让读者能够更全面地了解这个工具。期待您的下一篇文章！愿您在创作的路上越走越远！
undefined symbol when importing torchaudio with pytorch 报错解决
CSDN-Ada助手: 恭喜您写了第7篇博客，并成功解决了关于导入torchaudio时遇到的undefined symbol报错！您的经验分享对于遇到相同问题的读者们肯定会有很大的帮助。接下来，或许您可以考虑分享一些关于如何优化pytorch和torchaudio的性能，或者介绍一些其他常见的报错及解决方法，这样能够帮助更多的人解决问题。期待您的下一篇博客！

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。