先看配置文件中关于保存的参数
epoch_num: 总的训练轮数
print_batch_step: 每隔多少个batch打印一回信息
save_model_dir: 模型保存路径
save_epoch_step: 模型保存时间间隔,以epoch计
eval_batch_step: 在第0个batch后每隔500个batch评估一次
后面还有
batch_size_per_card: 每个batch运行的图片数,过多会爆显存
模型训练总共epoch_num个epoch,每个epoch会把所有图片都跑一遍,而模型训练按batch为单位。
最近用一个几百万的训练集训练模型,由于经费有限,电脑性能实在拉跨,每个batch最高只能64,那么这么算下来。500万的数据集都跑一遍算是一个epoch,那么需要78125个batch,而我的电脑10个batch需要半分钟,那么一个epoch需要10个小时!
save_epoch_step最低设置为1,这意味着10个小时才能保存一次,这是不可接受的,因为不知道什么时候电脑出问题了就前功尽弃了。
于是改保存间隔。
打开tools/program.py,搜索save_model
找到这一部分,可以看到save_model 是一个函数,专用保存模型。
上面第一个出现的save,是保存最新的模型latest,第二个出现的save是按save_epoch_step间隔保存模型。
有什么办法可以不在每轮epoch中保存呢?答案在eval里
这里是按照eval_batch_step以batch为间隔计数,每次评估的时候发现,它会保存当前最高准确率的模型为best_accuracy,于是我们顺藤摸瓜,让它每次eval的时候不判断是否最高,直接保存就可,或者添加如下代码:
问题解决