模型权重文件的保存与加载-CSDN博客

本文链接：https://blog.csdn.net/Kelly_Ai_Bai/article/details/134969097

一般地，在训练过程中有可能会因为某些原因导致训练过程的终止，尤其是在训练一些大型模型的时候，所以在训练过程中保存权重文件是很有必要的，要不然训练好几天的代码又要重新跑了

下面来讲一下通常权重文件中都保存一些什么内容？

checkpoint = {
    'epoch'：epoch                           # 当前迭代的轮次
    "model":model.state_dict(),  # 模型权重
    "optimizer":optimizer.state_dict(),      # 优化器的参数
    "lr":lr                                  # 学习率策略
    "lr_scheduler":lr_scheduler.state_dict(),
    "args":args

}
if args.amp:   # 混合精度训练
    checkpoint["scaler"] = scaler.state_dict()

权重保存方式	存储大小
仅保留模型权重	169MB
包含优化器等信息	339MB

仅保留模型权重：

save_files={
    'model':model.state_dict(),
}

包含优化器等信息：

save_files = {
    'model':model.state_dict(),
    'optimizer':optimizer.state_dict(),
    'lr_scheduler':lr_scheduler.state_dict(),
    'epoch':epoch
}

所以保存的权重文件一般都很大，但是我们在载入预训练权重的时候只需要载入模型的参数，即只载入 model.state_dict()

如何正确载入上一次的模型权重继续进行训练？

if args.resume:
    checkpoint = torch.load(args.resume,map_location="cpu")
    model.load_state_dict(checkpoint['model'])   # 载入模型的参数
    optimizer.load_state_dict(checkpoint["optimizer"])  # 载入优化器的相关信息
    lr_scheduler.load_state_dict(checkpoint["lr_scheduler"])
    args.start_epoch = checkpoint["epoch"]+1
    if args.amp:
        scaler.load_state_dict(checkpoint["scaler"])

如果只加载模型权重相关信息的话，继续训练的结果其实并不能对齐

比如在优化器当中，如果使用了