之前训练模型都是比较简单的,也没有考虑epoch,这次训练模型是transformer模型,数据量大,参数多,多设置了几轮,那么就会有个问题,轮数太多,模型参数应该怎么保存呢?不能白训练。所以用CheckPoint。
简单理解:在你想要了解模型的某个点的参数时 ,你就可以保存在CheckPoint中,以便查看。
Pytorch如何保存模型的?可以参考以下链接
(2 封私信 / 81 条消息) pytorch如何保存模型? - 知乎 (zhihu.com)
查看模型,我感觉大概过程如下
from config.train_config import finetuning_parse_args
#config.train_config中包含着模型训练参数,如epoch、batch_size等
finetuning_args = finetuning_parse_args()
save_path = os.path.join(finetuning_args.save_model_dir,f'{i+1}.pt')
finetuning_args.save_path = save_path
#参数保存的位置,保存的参数是config.train_config中的参数
train(model=model,
train_dataloader=temp_train_dataloader,
valid_dataloader=temp_valid_dataloader,
train_args=finetuning_args,
LOGGER=LOGGER,
is_multicard=is_multicard,
device=device)
#训练的时候就可以调用