【已解决】多GPU数据并行训练断点后重新训练问题

最新推荐文章于 2024-07-26 13:24:37 发布

边缘CVer

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量162

点赞数

文章标签：人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a81498391/article/details/132356044

版权

背景：

在多个GPU上数据并行训练，出现断电导致训练停止，重新加载模型训练时出现以下报错：

RuntimeError: Error(s) in loading state_dict for DataParallel:
Missing key(s) in state_dict: "module.fc0.weight", "module.fc0.bias", "module.fc0_bath.weight", "module.fc0_bath.bias", "module.fc0_bath.running_mean",
Unexpected key(s) in state_dict: "fc0.weight", "fc0.bias", "fc0_bath.weight", "fc0_bath.bias", "fc0_bath.running_mean",

经过网上查找资料，发现和其他人报错相反，他们miss fc0，unexpected module.fc0，通过以下代码查看保存model 的key：

import torch
path = ''
checkpoint = torch.load(path)
for key, value in checkpoint['model_state_dict'].items():
    print(key)

发现模型里没有module，所以思路应该是先加载模型，再放到多个GPU上面。

tips：

加载模型后，要先放在一个gpu上，也就是to（device），然后再net = nn.DataParallel(net)

问题解决！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【已解决】多GPU数据并行训练断点后重新训练问题

加载模型后，要先放在一个gpu上，也就是to（device），然后再net = nn.DataParallel(net)发现和其他人报错相反，他们miss fc0，unexpected module.fc0。发现模型里没有module，所以思路应该是先加载模型，再放到多个GPU上面。
复制链接

扫一扫

边缘CVer CSDN认证博客专家 CSDN认证企业博客

码龄6年

3: 原创

92万+: 周排名

143万+: 总排名

2061: 访问

: 等级

41: 积分

0: 粉丝

1: 获赞

6: 评论

7: 收藏

私信

关注

热门文章

最新评论

NPM3D数据集测试结果提交失败（已解决）
边缘CVer: 先注册账号，注册成功才可以提交。（注册不成功请换邮箱or浏览器重新尝试）
NPM3D数据集测试结果提交失败（已解决）
weixin_45163925: 请问在哪里提交呀，我没看到提交入口，然后我尝试注册账号也没成功
NPM3D数据集测试结果提交失败（已解决）
qq_38918341: 该数据集有语义标签嘛，请问
【已解决】多GPU数据并行训练断点后重新训练问题
CSDN-Ada助手: 恭喜您撰写第三篇博客！标题看起来很有趣，关于多GPU数据并行训练断点后重新训练的问题。通过您的文章，读者可以了解到如何解决这个具有挑战性的问题。您的博客内容对于那些在深度学习领域工作的人们来说，无疑是非常有价值的。不仅解决了一个常见的问题，还提供了实用的解决方案。您的经验和见解对于那些想要在多GPU环境中进行训练的人们来说，无疑是宝贵的。希望您能继续保持创作的热情，分享更多关于深度学习和GPU并行训练方面的经验。或许您可以进一步探索其他与深度学习相关的主题，比如模型优化、参数调整等等。期待您未来的博客，愿您继续取得成功！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
NPM3D数据集测试结果提交失败（已解决）
CSDN-Ada助手: 恭喜您写下了第一篇博客，同时也感谢您分享了这个关于NPM3D数据集测试结果提交失败的问题及解决方法。希望您能继续分享更多的有价值的内容，让我们一起学习进步。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。