1 abstract:
只有3*3 和1*1 的卷积核
VGG 是16层到19层的模型,3*3 的filter,改进大
introduction :固定其他的超参数,不断增加层数,trick: 3*3 的filter
2.1 ConvNet configuration
input:224*224 的RGB
预处理: 减去RGB均值
conv filter: 3*3 ;1*1 (一个例子)实际上就是对input 做线性变化,维持input的维数不变,增加了一个relu
stride :1
padding:same 是为了保持很input的shape 一致,对于3*3 的用1
pooling ;5个,都放在conv 的后面,filter 2*2,stride =2
通用结构: 多个conv 层,3个FC 层:两层4096,一个softmax 层1000
RELU 激活函数
2.2 模型对比
比宽浅层的参数更少
2.3 之前竞赛的模型
filters :11*11或 7*7
strides:4或者2
本论文: filters: 3*3
strides:1
两个3*3 =1个5*5 ;3个3*3 =7*7 效果一样
每一层后面要加relu,比单个的relu,有更强的分辨率,减少了 参数的数量,7 有49C**2 ,3个3*3 有27C**2
3 模型如何训练
loss: 最优化多项式逻辑回归,mini-batch gredient,
descant:
bp+momentum
batch-size:256
momentum:0.9
weight decay : L2=5e-4
dropout : 前2个FC,rate =0.5
learning rate: 10e-2;validation stop 1e-1 ;74 epochs,3 times
对比Alexnet 本模型能够给最快的找到最低的loss; 深度+小filter 相当于 regularization,对某些层做预初始化的处理。
min-batch 可以分GPU 做正反向传递,再收集均值
4 评估;
top1 : 错误预测占比
top5: 正确class 超出前5预测class范围的占比