如何保存重载pytorch的训练

最新推荐文章于 2024-04-08 20:51:00 发布

原创最新推荐文章于 2024-04-08 20:51:00 发布

· 607 阅读

2 ·

版权

超分辨代码专栏收录该内容

17 篇文章

订阅专栏

问题：模型已经训练了很多次了，怎么把他中断掉之后再接着训练。
用了下面的代码，加了一下pre_train，去掉了reset，结果是loss函数是接着降下来的。但是曲线图都是从1开始，原来的被覆盖掉了，不知道应该怎么改一改。

CUDA_VISIBLE_DEVICES=1 python main.py --template MDSR --model MDSR --scale 2+3+4 --n_resblocks 80 --pre_train /home/zhj/EDSR-1.0.0/experiment/MDSR/model/model_latest.pt --save MDSR  --save_models

问题：加了reset和不加有什么区别？
reset就是把相关的训练的东西全删了。
在这里插入图片描述
问题：
但是有时候模型及数据太多,难以一次性训练完的时候,而且用的还是 Adam优化器的时候, 一定要保存好训练的优化器参数以及epoch
转载自https://blog.csdn.net/qq_24502469/article/details/104639824
保存模型
保存模型仅仅是为了测试的时候，只需要

torch.save(model.state_dict, path)

path 为保存的路径

但是有时候模型及数据太多,难以一次性训练完的时候,而且用的还是 Adam优化器的时候, 一定要保存好训练的优化器参数以及epoch

state = { 'model': model.state_dict(), 'optimizer':optimizer.state_dict(), 'epoch': epoch }   
torch.save(state, path)

因为这里

def adjust_learning_rate(optimizer, epoch):
    lr_t = lr
    lr_t = lr_t * (0.3 ** (epoch // 2))
    for param_group in optimizer.param_groups:
        param_group['lr'] = lr_t

学习率是根据epoch变化的, 如果不保存epoch的话,基本上每次都从epoch为0开始训练,这样学习率就相当于不变了!!

恢复模型
恢复模型只用于测试的时候,

model.load_state_dict(torch.load(path))

path为之前存储模型时的路径

但是如果是用于继续训练的话,

checkpoint = torch.load(path)
model.load_state_dict(checkpoint['model'])
optimizer.load_state_dict(checkpoint['optimizer'])
start_epoch = checkpoint['epoch']+1