Object classification论文中训练策略

最新推荐文章于 2023-06-25 09:16:00 发布

Jayxbx

最新推荐文章于 2023-06-25 09:16:00 发布

阅读量373

点赞数

分类专栏：论文整理文章标签： CNN结构

本文链接：https://blog.csdn.net/weixin_37904412/article/details/79986343

版权

论文整理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、AlexNet

1、超参设定

batchsize=128 (图像大小224 * 224)
momentum=0.9
weight decay=0.0005 权重衰减对于模型学习很重要。
初始learning rate=0.01
优化方法：带动量的随机梯度下降

2、初始化

每一层的权重使用0均值，0.01标准差的正态分布初始化。
第二、四、五层的卷积层以及FC层的偏置项，使用常数1初始化。目的是提供正输入给ReLU，加快学习的初始阶段。负输入会让ReLU失活。
剩余部分的偏置项，使用常数0初始化。

3、学习率调整

所有层使用相同的学习速率，在训练过程中手动调整。当验证集错误停止降低就将学习率除以10。终止迭代前减小了3次。

4、正则化

全连接层使用dropout

二、AlexNetV2的一些结论

1、较大的batchsize对准确性有一定的影响，具体影响与数据集有关。较小的batch，相比于异构数据集，同构的数据集会更加受益。
2、论文的模型在训练进度为25%，50%，75%的时候将学习率降低。乘以0.15。
3、微调模型时候，如果要增大batchsize，动量的变化应该比较平滑，可以保持不变。momentum=0.9
4、微调模型时候，如果batchsize增大k倍，学习率应该乘根号k。保持梯度期望值方差不变。
5、微调模型时候，如果batchsize增大k倍，权重衰减乘根号k。

三、VGGNet

1、超参设定

batchsize=256 (图像大小224 * 224)
momentum=0.9
前两个FC层，dropout=0.5
L2正则化惩罚系数5 * 10^-4
初始learning rate=0.01
优化方法：带动量的随机梯度下降

2、初始化

随机初始化方法训练A网络(一个较浅的网络)，训练更深的网络时，用A的权重进行初始化。具体：前四个卷积层和后三个FC层使用A的权重，中间层随机初始化。
权重初始化使用0均值，0.01标准差的正态分布初始化。偏置初始化为常数0。

3、学习率调整

所有层使用相同的学习速率，在训练过程中手动调整。当验证集错误停止降低就将学习率除以10。终止迭代前减小了3次。

4、正则化

全连接层使用dropout

四、Inception V1

超参设定

momentum：0.9
学习率：每迭代8轮，学习率降低4%
优化方法：异步随机梯度下降
其他的未公开。

五、Inception V2

1、超参设定

batchsize=32
epoch=100

2、学习率调整

学习率：0.045
每两个epoch以0.94的指数速率衰减。

3、优化方法

优化方法：RMSProp，衰减值为0.9，ϵ=1.0。
阈值为2.0的梯度裁剪

六、ResNet

1、超参设定

batchsize=256
权重衰减 =0.0001
动量 =0.9

2、学习率调整

学习率：0.1，当误差停滞时，将学习率除以10，模型训练60万次

3、优化方法

带动量的SGD

4、正则化

每次卷积后和激活前都采取batch normalization，不使用dropout

5、初始化

同论文Delving deep into rectifiers:Surpassing human-level performance on imagenet classification的初始化，从头开始训练普通网络和残差网络。

Jayxbx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Object classification论文中训练策略

一、AlexNet1、超参设定batchsize=128 (图像大小224 * 224) momentum=0.9 weight decay=0.0005 权重衰减对于模型学习很重要。初始learning rate=0.01 优化方法：带动量的随机梯度下降2、初始化每一层的权重使用0均值，0.01标准差的正态分布初始化。第二、四、五层的卷积层以及FC层的偏置...
复制链接

扫一扫

专栏目录