网上的翻译总结不计其数了,所以直接对阅读过程中出现的一些问题进行总结
3 CLASSIFICATION FRAMEWORK
3.1 TRAINING
- 训练图像是如何得到的(224*224)
对一张训练图像,首先进行rescale,比如可以用双线性插值,得到短边为S的图像。然后在得到的图像中裁剪一部分,这部分的大小是224*224。one crop per image per SGD iteration 指的是每一次梯度下降的迭代就对图像重新进行一次裁剪,目的是提升鲁棒性之类的。裁剪的图像是占原图像的很大比例的,如S=256,这样图像中大部分的信息才会包含在其中的。举个例子,如果一张图片中有车,有天空,在S>>224时,裁剪了天空,标签却是车,显然是不合理的。然而,标签物体不可能永远占图片的大部分,所以后面S=384,512可能是考虑了这种情况。
the fully-connected layers are first converted to convolutional layers
- 全连接如何转化成卷积
在网络结构中,经过最后一个maxpool后,得到7*7*512的特征,用1*1*n去做卷积,即得到全连接层
a variable spatial resolution, dependent on the input image size
为什么说取决于输入
之前全连接已经转化成全卷积,所以得到的图像和输入有关,最后,sum-pooled指的是对最后的结果池化是否用了padding
答案是肯定的,因为最后说最后的卷积层是7*7的,可以推测每层的图像大小,卷积层是用same padding 的,图像尺寸只有在池化是才会缩小。2个3*3等效于1个5*5和是否用padding是不冲突的