Object classification论文中训练策略

一、AlexNet

1、超参设定

batchsize=128 (图像大小224 * 224)
momentum=0.9
weight decay=0.0005 权重衰减对于模型学习很重要。
初始learning rate=0.01
优化方法:带动量的随机梯度下降

2、初始化

每一层的权重使用0均值,0.01标准差的正态分布初始化。
第二、四、五层的卷积层以及FC层的偏置项,使用常数1初始化。目的是提供正输入给ReLU,加快学习的初始阶段。负输入会让ReLU失活。
剩余部分的偏置项,使用常数0初始化。

3、学习率调整

所有层使用相同的学习速率,在训练过程中手动调整。当验证集错误停止降低就将学习率除以10。终止迭代前减小了3次。

4、正则化

全连接层使用dropout


二、AlexNetV2的一些结论

1、较大的batchsize对准确性有一定的影响,具体影响与数据集有关。较小的batch,相比于异构数据集,同构的数据集会更加受益。
2、论文的模型在训练进度为25%,50%,75%的时候将学习率降低。乘以0.15。
3、微调模型时候,如果要增大batchsize,动量的变化应该比较平滑,可以保持不变。momentum=0.9
4、微调模型时候,如果batchsize增大k倍,学习率应该乘根号k。保持梯度期望值方差不变。
5、微调模型时候,如果batchsize增大k倍,权重衰减乘根号k。

三、VGGNet

1、超参设定

batchsize=256 (图像大小224 * 224)
momentum=0.9
前两个FC层,dropout=0.5
L2正则化惩罚系数5 * 10^-4
初始learning rate=0.01
优化方法:带动量的随机梯度下降

2、初始化

随机初始化方法训练A网络(一个较浅的网络),训练更深的网络时,用A的权重进行初始化。具体:前四个卷积层和后三个FC层使用A的权重,中间层随机初始化。
权重初始化使用0均值,0.01标准差的正态分布初始化。偏置初始化为常数0。

3、学习率调整

所有层使用相同的学习速率,在训练过程中手动调整。当验证集错误停止降低就将学习率除以10。终止迭代前减小了3次。

4、正则化

全连接层使用dropout

四、Inception V1

超参设定

momentum:0.9
学习率:每迭代8轮,学习率降低4%
优化方法:异步随机梯度下降
其他的未公开。

五、Inception V2

1、超参设定

batchsize=32
epoch=100

2、学习率调整

学习率:0.045
每两个epoch以0.94的指数速率衰减。

3、优化方法

优化方法:RMSProp,衰减值为0.9,ϵ=1.0。
阈值为2.0的梯度裁剪

六、ResNet

1、超参设定

batchsize=256
权重衰减 =0.0001
动量 =0.9

2、学习率调整

学习率:0.1,当误差停滞时,将学习率除以10,模型训练60万次

3、优化方法

带动量的SGD

4、正则化

每次卷积后和激活前都采取batch normalization,不使用dropout

5、初始化

同论文Delving deep into rectifiers:Surpassing human-level performance on imagenet classification的初始化,从头开始训练普通网络和残差网络。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值