Caffe网络模型详解-Solver及其配置

qq_46261928

于 2021-08-12 09:33:35 发布

阅读量212

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_46261928/article/details/119613162

版权

solver是caffe核心的核心，它协调着整个模型的运作。caffe程序运行必带的参数就是solver配置文件。solver的主要作用就是交替调用前向算法和后向算法来更新参数，从而最小化loss，实际上就是一种迭代的优化算法。到目前的版本中，Caffe提供了六种优化算法来求解最优参数（SGD、AdaDelta、AdaGrad、Adam、Nesterov、RMSProp），在solver配置文件中，通过设置type类型来选择。

solver流程：

设计好需要优化的对象，以及用于学习的训练网络和用于评估的测试网络（通过调用另一个配置文件prototxt来进行）。
通过forward和backword迭代的进行优化来跟新参数。
定期的评价测试网络（可设定多少次训练后，进行一次测试）。
在优化过程中，显示模型和solver状态。

在每一次的迭代过程中，solver做了这几步工作：

调用forward算法来计算最终的输出值，以及对应的loss。
调用backward算法来计算每层的梯度。
根据选用的solver方法，利用梯度进行参数更新。
记录并保存每次迭代的学习率、快照，以及对应的状态。

示例：

net: "train.prototxt"
test_iter: 100
test_interval: 100
base_lr: 0.01
display: 100
max_iter: 10000
lr_policy: "step"
power：0.75
gamma: 0.1
momentum: 0.9
weight_decay: 0.0005
stepsize: 3135
snapshot: 190
snapshot_prefix: "snapshot"
solver_mode: GPU
solver_type: SGD

对每一项进行详细解释：

net：设置深度网络模型。每一个模型就是一个net，需要在专门的配置文件中对net进行配置，每个net由许多layer组成。注意：文件的路径要从Caffe的根目录开始，其它的所有配置都是这样。
test_iter：这个要与test layer中的batch_size结合起来理解。一次性执行全部数据效率很低，因此我们将测试数据分成几个批次来进行，每个批次的数量就是batch_size。假设测试样本总数为10000，batch_size为100，则需要迭代100次才能将10000个数据全部执行完。执行完一次全部数据，称之为一个epoch。
test_interval：测试间隔，每训练test_interval次，测试一次。
base_lr：设置学习率。只要是用梯度下降法来求解优化，都会有一个学习率，也叫步长。
lr_policy：在迭代的过程中，怎样对基础学习率进行调整（有几种方式供选择）。
momentum：上一次梯度更新的权重。
type：优化算法选择。
weight_decay：权重衰减项，防止过拟合。
display：每训练display次，在屏幕上显示一次，设置为0不显示。
max_iter：最大迭代次数。这个数设置太小，会导致没有收敛，精确度很低，设置太大，会导致震荡，浪费时间。
snapshot、snapshot_prefix：快照。将训练出来的model和solver状态进行保存，snapshot用于设置训练多少次后进行保存，默认为0不保存。snapshot_prefix设置保存路径。还可以设置snapshot_diff（是否保存梯度值）、snapshot_fomat(HDF5、BINARYPROTO）
solver_mode：设置运行模式，默认为GPU，如果没有GPU需改成CPU，否则会出错。

注意：以上的所有参数都是可选参数，都有默认值。根据solver方法（type）的不同，还有一些其他的参数，在此不一一列举。

感谢

https://max.book118.com/html/2020/0715/6055121213002220.shtm

qq_46261928

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Caffe网络模型详解-Solver及其配置

solver是caffe核心的核心，它协调着整个模型的运作。caffe程序运行必带的参数就是solver配置文件。solver的主要作用就是交替调用前向算法和后向算法来更新参数，从而最小化loss，实际上就是一种迭代的优化算法。solver流程：设计好需要优化的对象，以及用于学习的训练网络和用于评估的测试网络（通过调用另一个配置文件prototxt来进行）。...
复制链接

扫一扫