深度学习系列

最新推荐文章于 2021-04-12 09:36:24 发布

破茧蛰伏的日子

最新推荐文章于 2021-04-12 09:36:24 发布

阅读量558

点赞数

文章标签：神经网络机器学习深度学习 pytorch caffe

本文链接：https://blog.csdn.net/aoxuerenwudi/article/details/109208467

版权

深度学习总结系列

solver.prototxt 参数解析

对于caffe 来讲solver为其运行控制的核心，控制着整个模型的运作方式。

solver.prototxt

solver.prototxt 为caffe配置文件，里面定义了各种参数包括学习率，权重衰减、动量值等：

net:"train_val.prototxt"
test_iter: 266
test_interval: 1000
base_lr: 0.001
display: 100
max_iter: 50000
lr_policy: "multistep"
gamma: 0.1
momentum: 0.9
weight_decay: 0.0005
snapshot: 1000
snapshot_prefix: "models/facedet"
solver_mode: GPU
device_id: 0
debug_info: false
snapshot_after_train: true
test_initialization: true
average_loss: 10
stepvalue: 30000
stepvalue: 40000
stepvalue: 45000
iter_size: 2
type: "SGD"
eval_type: "detection"
ap_version: "11point"
show_per_class_result:true

参数解析

net： 训练验证模型文件路径。

test_iter： 表示每训练完成一定次数后进行模型效果验证时的测试迭代次数。其表示把验证集中所有图片全部测试完成所需要的迭代次数。假设验证集图片数为val_num，验证时的batchsize为v_bsz，则test_iter = ceiling(val_num/ v_bsz)，向上取整。

test_interval： 表示训练迭代多少次进行一次验证测试。一次迭代即一个batch的图片通过网络正向传播和反向传播的整个过程。一般来说，我们需要将训练集中所有图片都训练一遍，再对网络的准确率进行测试，即test_interval = train_num / train_bsz，但是不绝对，也可以设为一整数，比如1000等。

base_lr： 表示网络的基础学习率。学习率过高可能导致loss无法收敛等问题。过低的学习率会使网络收敛慢，也有可能导致梯度消失。一般我们设置为0.001。学习率和训练时的batchsize有关系，一般来讲batchsize越大，学习率也可以设置大一些。

display: 每多少次显示一次训练相关参数和结果。
max_iter: 训练最大迭代次数。以训练集中图片被反复训练学习100-200遍为宜，该参数可以设置为max_iter = （train_num / train_bsz）* 150。

lr_policy: 学习率变化策略。
lr_policy可以设置为下面这些值，相应的学习率的计算为：
o - fixed: 保持base_lr固定不变.
o - step: 如果设置为step,则还需要设置一个stepsize, 返回 base_lr * gamma ^ (floor(iter / stepsize)),其中iter表示当前的迭代次数
o - exp: 返回base_lr * gamma ^ iter， iter为当前迭代次数
o - inv: 如果设置为inv,还需要设置一个power, 返回base_lr * (1 + gamma * iter) ^ (- power)
o - multistep: 如果设置为multistep，则还需要设置一个stepvalue。这个参数和step很相似，step是均匀等间隔变化，而multistep则是根据stepvalue值变化
o - poly: 学习率进行多项式误差, 返回 base_lr (1 - iter/max_iter) ^ (power)
o - sigmoid:学习率进行sigmod衰减，返回 base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))

gamma: 学习率变化比率。用于调整学习率的一个参数。
momentum: 本次模型权重梯度更新时，上一次梯度所占的权重，一般取值在0.5–0.99之间。通常设为0.9，momentum可以让使用SGD的深度学习方法更加稳定以及快速。

weight_decay: 权重衰减项，防止过拟合的一个参数。在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般衡量模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大，从而可以降低模型复杂度。

snapshot: 每多少次保存一次模型文件。即caffemodel。
snapshot_prefix: 设置模型文件保存路径。
solver_mode: 设置使用GPU还是CPU进行学习训练。
device_id: GPU序列号，默认从０开始。
debug_info: 是否显示debug信息。
snapshot_after_train: 是否在训练结束后保存一个snapshot文件，便于以后可以在此基础上继续训练。

test_initialization: 确保内存可用并且输出loss的初始值。
average_loss: 显示loss为average_loss个loss的平均值。
iter_size: 每处理iter_size＊batch_size张图片后进行一次梯度计算，这个参数可以规避由于gpu不足而导致的batch_size的限制，因为你可以用多个iteration做到很大的batch，即使单次batch有限。
stepvalue: 多少次时学习率递减。
type: 优化算法的选择，一共有六种可选：SGD、AdaDelta、AdaGrad、Adam、Nesterov和RMSProp。默认为SGD。
eval_type: 评价类型。
ap_version: 计算平均准确率的方法。有11point、MaxIntegral、Integral三种。
11point：是SSD在VOC2007中计算AP的方法，使用简单的均值计算
MaxIntegral：是VOC2012的最大值积分法
Integral：普通积分方法
show_per_class_result: 在终端输出每一类的AP（每一类的检测精度）信息。