模型训练----断点训练

最新推荐文章于 2023-06-13 22:31:49 发布

雪豹不会梦到瑞克5

最新推荐文章于 2023-06-13 22:31:49 发布

阅读量326

点赞数 1

分类专栏：动手学习深度学习文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/szn1316159505/article/details/129257228

版权

动手学习深度学习专栏收录该内容

35 篇文章 3 订阅

订阅专栏

当我们发现模型训练过程中异常，不得不停止，这是还像继续上次的训练就得都用到断点训练，保存模型的优化器，迭代器，模型，轮数等参数

保存模型，cfg为我的配置文件

checkpoint = {
            'epoch':epoch,
            'model':model.state_dict() if not cfg.more_gpu else model.module.state_dict(),
            'optimizer':optimizer.state_dict(),
            'lr_schedule':scheduler.state_dict(),
            'best_acc':best_acc}
torch.save(checkpoint,cfg.checkpoint_path)

在训练前判断是否继续训练，若是则读取上一次参数，加载全部参数或者变换学习率等等

注释语句为断点训练更改参数，你觉得上次训练学习率过大就可以调小，配合日志功能来调整

start_epoch = -1
best_acc = 0.0
if cfg.resume:
    path_checkpoint = cfg.checkpoint_path
    checkpoint = torch.load(path_checkpoint)
    start_epoch = checkpoint['epoch']
    model.load_state_dict(checkpoint['model']) if not cfg.more_gpu else model.module.load_state_dict(checkpoint['model'])
    model.model.load_state_dict(checkpoint['model'])
    optimizer.load_state_dict(checkpoint['optimizer'])
    #optimizer = torch.optim.__dict__[cfg.optimizer_type](model.parameters(),lr = 0.0001,weight_decay = cfg.wd)
    scheduler.load_state_dict(checkpoint['lr_schedule'])
    #scheduler=lr_scheduler.ExponentialLR(optimizer=optimizer,gamma=0.9)
    best_acc = checkpoint['best_acc']