背景:训练集较大,训练过程需要时间过长,但是我们集群环境超级不稳定。常常,训练到部分,又得重新开始训练。 一、模型的保存 torch.save主要参数就是:需要保存的权重对象 + 保存路径 torch.save(utils_x.makeDict(Model.state_dict()), 'XX+present.pkl')) 二、模型的加载 torch.load主要参数就是:文件路径 + 指定存放位置:cpu or gpu self.Model