论文链接,至于论文我没仔细看,我只学习了其框架。
但是需要注意的是:
在训练期间,ConvNets的输入是固定大小的224×224 RGB图像。 唯一预处理是从每个像素中减去在训练集上计算的平均RGB值,(eg:VGG16是:VGG_MEAN = tf.constant([123.68, 116.779, 103.939], dtype=tf.float32))处理时候转换成了RGB→BGR格式。图像通过一堆卷积(转换)层,使用具有非常小的感知域的滤波器: 3×3(这是捕捉左/右,上/下,中心概念的最小尺寸)。 在其中一种配置中,我们还使用1×1卷积滤波器,可以看作是输入通道的线性变换(后面是非线性)。 卷积步幅固定为1个像素; 卷积层输入的空间填充使得在卷积之后保持空间分辨率,即对于3×3个卷积层,填充是1个像素。 空间池由五个最大池组执行,这些层跟随一些转换。 图层(并非所有转换图层都跟随最大池)。 最大池化在2×2像素窗口上执行,步幅为2。
卷积层(在不同的体系结构中具有不同的深度)的stack之后是三个完全连接(FC)层:前两个层各有4096个通道,第三个层执行1000路ILSVRC分类,因此包含1000个通道(每个类一个)。最后一层是so