solver是caffe核心的核心,它协调着整个模型的运作。caffe程序运行必带的参数就是solver配置文件。solver的主要作用就是交替调用前向算法和后向算法来更新参数,从而最小化loss,实际上就是一种迭代的优化算法。到目前的版本中,Caffe提供了六种优化算法来求解最优参数(SGD、AdaDelta、AdaGrad、Adam、Nesterov、RMSProp),在solver配置文件中,通过设置type类型来选择。
solver流程:
- 设计好需要优化的对象,以及用于学习的训练网络和用于评估的测试网络(通过调用另一个配置文件prototxt来进行)。
- 通过forward和backword迭代的进行优化来跟新参数。
- 定期的评价测试网络(可设定多少次训练后,进行一次测试)。
- 在优化过程中,显示模型和solver状态。
在每一次的迭代过程中,solver做了这几步工作:
- 调用forward算法来计算最终的输出值,以及对应的loss。
- 调用backward算法来计算每层的梯度。
- 根据选用的solver方法,利用梯度进行参数更新。
- 记录并保存每次迭代的学习率、快照,以及对应的状态。
示例:
net: "train.prototxt"
test_iter: 100
test_interval: 100
base_lr: 0.01
display: 100
max_iter: 10000
lr_policy: "step"
power:0.75
gamma: 0.1
momentum: 0.9
weight_decay: 0.0005
stepsize: 3135
snapshot: 190
snapshot_prefix: "snapshot"
solver_mode: GPU
solver_type: SGD
对每一项进行详细解释:
- net:设置深度网络模型。每一个模型就是一个net,需要在专门的配置文件中对net进行配置,每个net由许多layer组成。注意:文件的路径要从Caffe的根目录开始,其它的所有配置都是这样。
- test_iter:这个要与test layer中的batch_size结合起来理解。一次性执行全部数据效率很低,因此我们将测试数据分成几个批次来进行,每个批次的数量就是batch_size。假设测试样本总数为10000,batch_size为100,则需要迭代100次才能将10000个数据全部执行完。执行完一次全部数据,称之为一个epoch。
- test_interval:测试间隔,每训练test_interval次,测试一次。
- base_lr:设置学习率。只要是用梯度下降法来求解优化,都会有一个学习率,也叫步长。
- lr_policy:在迭代的过程中,怎样对基础学习率进行调整(有几种方式供选择)。
- momentum:上一次梯度更新的权重。
- type:优化算法选择。
- weight_decay:权重衰减项,防止过拟合。
- display:每训练display次,在屏幕上显示一次,设置为0不显示。
- max_iter:最大迭代次数。这个数设置太小,会导致没有收敛,精确度很低,设置太大,会导致震荡,浪费时间。
- snapshot、snapshot_prefix:快照。将训练出来的model和solver状态进行保存,snapshot用于设置训练多少次后进行保存,默认为0不保存。snapshot_prefix设置保存路径。还可以设置snapshot_diff(是否保存梯度值)、snapshot_fomat(HDF5、BINARYPROTO)
- solver_mode:设置运行模式,默认为GPU,如果没有GPU需改成CPU,否则会出错。
注意:以上的所有参数都是可选参数,都有默认值。根据solver方法(type)的不同,还有一些其他的参数,在此不一一列举。
感谢
https://max.book118.com/html/2020/0715/6055121213002220.shtm