问题:模型已经训练了很多次了,怎么把他中断掉之后再接着训练。
用了下面的代码,加了一下pre_train,去掉了reset,结果是loss函数是接着降下来的。但是曲线图都是从1开始,原来的被覆盖掉了,不知道应该怎么改一改。
CUDA_VISIBLE_DEVICES=1 python main.py --template MDSR --model MDSR --scale 2+3+4 --n_resblocks 80 --pre_train /home/zhj/EDSR-1.0.0/experiment/MDSR/model/model_latest.pt --save MDSR --save_models
问题:加了reset和不加有什么区别?
reset就是把相关的训练的东西全删了。
问题:
但是有时候模型及数据太多,难以一次性训练完的时候,而且用的还是 Adam优化器的时候, 一定要保存好训练的优化器参数以及epoch
转载自https://blog.csdn.net/qq_24502469/article/details/104639824
保存模型
保存模型仅仅是为了测试的时候,只需要
torch.save(model.state_dict, path)
path 为保存的路径
但是有时候模型及数据太多,难以一次性训练完的时候,而且用的还是 Adam优化器的时候, 一定要保存好训练的优化器参数以及epoch
state = { 'model': model.state_dict(), 'optimizer':optimizer.state_dict(), 'epoch': epoch }
torch.save(state, path)
因为这里
def adjust_learning_rate(optimizer, epoch):
lr_t = lr
lr_t = lr_t * (0.3 ** (epoch // 2))
for param_group in optimizer.param_groups:
param_group['lr'] = lr_t
学习率是根据epoch变化的, 如果不保存epoch的话,基本上每次都从epoch为0开始训练,这样学习率就相当于不变了!!
恢复模型
恢复模型只用于测试的时候,
model.load_state_dict(torch.load(path))
path为之前存储模型时的路径
但是如果是用于继续训练的话,
checkpoint = torch.load(path)
model.load_state_dict(checkpoint['model'])
optimizer.load_state_dict(checkpoint['optimizer'])
start_epoch = checkpoint['epoch']+1
依次恢复出模型 优化器参数以及epoch。
明天再尝试一下怎么恢复模型。
你猜怎么招,师兄说只需要加上load就可以了。。。。不用写reset 不用写resume
我的天啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
python main.py --load /home/zhj/model
就是放pt文件的那里.