Pytorch 深度学习模型训练断点继续训练时损失函数恶化或与断点差异较大

最新推荐文章于 2024-04-21 12:39:49 发布

周博士

最新推荐文章于 2024-04-21 12:39:49 发布

阅读量1.1w

点赞数 4

分类专栏：深度学习文章标签： pytorch 深度学习 checkpoint 断点继续误差不连续

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huntstart/article/details/86587946

版权

在Pytorch 1.0版本中，使用残差模型进行深度学习训练时，断点继续训练发现误差显著恶化。问题可能源于data_loader的随机性、模型中BatchNormalization层的处理以及模型定义、存储和恢复的方式。在存储模型时，调用model.cpu()可能引入不确定性。此外，使用函数封装模型可能导致子模型的不一致。解决办法包括正确使用state_dict存储模型和optimizer状态，确保模型加载时在GPU上操作，并在每个epoch开始时设置随机种子。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

问题描述
问题所在
pytorch模型定义、存储、恢复注意
参考过的链接

问题描述

pytorch版本1.0。
神经网络结构主要为残差模型，带有BatchNormalization。
在断点继续训练时，发现模型的训练误差有较大恶化，通常恶化量为10%左右。

问题所在

data_loader的随机性导致每个minibatch在不同epoch都有所不同，而模型中BatchNorm在训练阶段会计算每个minibatch的均值和方差并用于归一化，所以随机性可能导致loss差异并波动，但这种波动会处于历史波动范围内，不会有较大变化。
在存储时调用了model的cpu()。想法是合理的，但是cuda()版本的model参数和cpu()版本的参数并不是同一个对象，pytorch理应保持他们的内容一致，但并不是官方的保存model的方法，可能存在bug，因为model中调用的各个子model并不一定就是完全符合官方要求的。那么如何在没有gpu的机子上读取gpu格式的model，在下面会有方法。
模型定义的时候，有时候为了提高代码的复用性，用函数封装了模型，函数则返回模型的对象，这样做是有风险的。笔者就是将各种不同的归一化网络模型封装在一个函数里，通过给予不同参数定义不同的归一化层然后返回他们的对象并构建较大的model，结果则导致了上述问题。这可能是一个pytorch的bug，亦或者pytorch本身就禁止这种用法而笔者孤陋寡闻不知道。

pytorch模型定义、存储、恢复注意

save模型时调用model.state_dict()，optim对象也类似存储方法。
load时，torch.load可以规定一个

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。