当我们的数据集很大,或模型很复杂时,模型训练往往会耗费几天甚至数月时间;这时如果因为一些难以预料的原因(电脑关机、电脑崩溃、爆显存等等)导致训练中断,真是会让人崩溃!
因此,我们需要一些机制来避免上述问题!
就像断点续传,操作系统中的中断恢复机制一样,断点续训的代码实现,需要啥保存啥加载啥就完事了,epoch,model,optimizer,weight...
当我们的数据集很大,或模型很复杂时,模型训练往往会耗费几天甚至数月时间;这时如果因为一些难以预料的原因(电脑关机、电脑崩溃、爆显存等等)导致训练中断,真是会让人崩溃!
因此,我们需要一些机制来避免上述问题!
就像断点续传,操作系统中的中断恢复机制一样,断点续训的代码实现,需要啥保存啥加载啥就完事了,epoch,model,optimizer,weight...