Caffe网络模型详解-Solver及其配置

solver是caffe核心的核心,它协调着整个模型的运作。caffe程序运行必带的参数就是solver配置文件。solver的主要作用就是交替调用前向算法和后向算法来更新参数,从而最小化loss,实际上就是一种迭代的优化算法。到目前的版本中,Caffe提供了六种优化算法来求解最优参数(SGD、AdaDelta、AdaGrad、Adam、Nesterov、RMSProp),在solver配置文件中,通过设置type类型来选择。

solver流程:

  1. 设计好需要优化的对象,以及用于学习的训练网络和用于评估的测试网络(通过调用另一个配置文件prototxt来进行)。
  2. 通过forward和backword迭代的进行优化来跟新参数。
  3. 定期的评价测试网络(可设定多少次训练后,进行一次测试)。
  4. 在优化过程中,显示模型和solver状态。

在每一次的迭代过程中,solver做了这几步工作:

  1. 调用forward算法来计算最终的输出值,以及对应的loss。
  2. 调用backward算法来计算每层的梯度。
  3. 根据选用的solver方法,利用梯度进行参数更新。
  4. 记录并保存每次迭代的学习率、快照,以及对应的状态。

示例:

net: "train.prototxt"
test_iter: 100
test_interval: 100
base_lr: 0.01
display: 100
max_iter: 10000
lr_policy: "step"
power:0.75
gamma: 0.1
momentum: 0.9
weight_decay: 0.0005
stepsize: 3135
snapshot: 190
snapshot_prefix: "snapshot"
solver_mode: GPU
solver_type: SGD

对每一项进行详细解释:

  • net:设置深度网络模型。每一个模型就是一个net,需要在专门的配置文件中对net进行配置,每个net由许多layer组成。注意:文件的路径要从Caffe的根目录开始,其它的所有配置都是这样。
  • test_iter:这个要与test layer中的batch_size结合起来理解。一次性执行全部数据效率很低,因此我们将测试数据分成几个批次来进行,每个批次的数量就是batch_size。假设测试样本总数为10000,batch_size为100,则需要迭代100次才能将10000个数据全部执行完。执行完一次全部数据,称之为一个epoch。
  • test_interval:测试间隔,每训练test_interval次,测试一次。
  • base_lr:设置学习率。只要是用梯度下降法来求解优化,都会有一个学习率,也叫步长。
  • lr_policy:在迭代的过程中,怎样对基础学习率进行调整(有几种方式供选择)。
  • momentum:上一次梯度更新的权重。
  • type:优化算法选择。
  • weight_decay:权重衰减项,防止过拟合。
  • display:每训练display次,在屏幕上显示一次,设置为0不显示。
  • max_iter:最大迭代次数。这个数设置太小,会导致没有收敛,精确度很低,设置太大,会导致震荡,浪费时间。
  • snapshot、snapshot_prefix:快照。将训练出来的model和solver状态进行保存,snapshot用于设置训练多少次后进行保存,默认为0不保存。snapshot_prefix设置保存路径。还可以设置snapshot_diff(是否保存梯度值)、snapshot_fomat(HDF5、BINARYPROTO)
  • solver_mode:设置运行模式,默认为GPU,如果没有GPU需改成CPU,否则会出错。

注意:以上的所有参数都是可选参数,都有默认值。根据solver方法(type)的不同,还有一些其他的参数,在此不一一列举。

感谢


https://max.book118.com/html/2020/0715/6055121213002220.shtm

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值