如何保存重载pytorch的训练

问题:模型已经训练了很多次了,怎么把他中断掉之后再接着训练。
用了下面的代码,加了一下pre_train,去掉了reset,结果是loss函数是接着降下来的。但是曲线图都是从1开始,原来的被覆盖掉了,不知道应该怎么改一改。

CUDA_VISIBLE_DEVICES=1 python main.py --template MDSR --model MDSR --scale 2+3+4 --n_resblocks 80 --pre_train /home/zhj/EDSR-1.0.0/experiment/MDSR/model/model_latest.pt --save MDSR  --save_models

问题:加了reset和不加有什么区别?
reset就是把相关的训练的东西全删了。
在这里插入图片描述
问题:
但是有时候模型及数据太多,难以一次性训练完的时候,而且用的还是 Adam优化器的时候, 一定要保存好训练的优化器参数以及epoch
转载自https://blog.csdn.net/qq_24502469/article/details/104639824
保存模型
保存模型仅仅是为了测试的时候,只需要

torch.save(model.state_dict, path)

path 为保存的路径

但是有时候模型及数据太多,难以一次性训练完的时候,而且用的还是 Adam优化器的时候, 一定要保存好训练的优化器参数以及epoch

state = { 'model': model.state_dict(), 'optimizer':optimizer.state_dict(), 'epoch': epoch }   
torch.save(state, path)

因为这里

def adjust_learning_rate(optimizer, epoch):
    lr_t = lr
    lr_t = lr_t * (0.3 ** (epoch // 2))
    for param_group in optimizer.param_groups:
        param_group['lr'] = lr_t

学习率是根据epoch变化的, 如果不保存epoch的话,基本上每次都从epoch为0开始训练,这样学习率就相当于不变了!!

恢复模型
恢复模型只用于测试的时候,

model.load_state_dict(torch.load(path))

path为之前存储模型时的路径

但是如果是用于继续训练的话,

checkpoint = torch.load(path)
model.load_state_dict(checkpoint['model'])
optimizer.load_state_dict(checkpoint['optimizer'])
start_epoch = checkpoint['epoch']+1

依次恢复出模型 优化器参数以及epoch。
明天再尝试一下怎么恢复模型。

你猜怎么招,师兄说只需要加上load就可以了。。。。不用写reset 不用写resume
我的天啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
python main.py --load /home/zhj/model
就是放pt文件的那里.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值