深度学习优化算法参数经验设置
优化算法的设置:
type:SGD/AdaDelta/AdaGrad/Adam/Nesterov/RMSProp
- SGD算法
Caffe默认的算法,一般配合momentum使用,设置为0.9,当学习率下降很小的时候,可以将动量设置为0.99提高训练效果。 - AdaDelta算法
冲量一般设置为0.95,delta一般设置成1e-6,base_lr 必须设置为1.0,lr_policy必须设置为fixed - AdaGrad
solver中base_lr一般设置不大,可参考0.01,lr_policy必须设置为“fixed”,momentum需设置 - Adam
Adam算法的提出者建议β1的默认值为0.9,β2 的默认值为.999,$\epsilon $默认为10−8 - NAG
base_lr一般为0.01,gamma为0.1
lr_policy一般为“step”,引号必须要有
momentum一般为0.95 - RMSprop
base_lr 看情况为1.0或者0.001
lr_policy 一般为fixed
rms_decay一般为0.98
momentum一般为0.95
一般测试30-40个epoch,这个决定最大迭代次数。