VggNet是由牛津大学视觉几何组(Visual Geometry Group,VGG)的Karen Simonyan和Andrew Zisserman提出来的,VggNet在ILSVRC-2014中获得了定位任务的第一名和分类任务的第二名。
下面一起来看一下VggNet的论文《Very Deep Convolutional Networks for Large-Scale Image Recognition》。先直接给出网络设置
这篇文章个人觉得最大的贡献就是用更小的卷积核实现更深的网络。
更小的卷积核的叠加可以实现大卷积核的感受野(receptive field)(两个3x3等价于1个5x5,3个3x3等价于一个7x7
同时减少了参数数量,比如说将3个3x3堆叠起来,如果输入和输出都有C个通道,则参数为
而一个7x7的参数为
可以看出参数有明显的减少
还有一个好处是由于层之间的ReLU函数,3个卷积层的堆叠的非线性效果也比1个卷积层的非线性效果要好
从网络设置可以看出,论文探讨了A-E 6种网络结构的性能,结果如下
即E结构获得了最好的性能
同时,作者认为在更大的数据集上可能更深的网络结构会有更好的表现,即是说不同深度模型的表现与数据集的大小有关。
其他的论文提到的
图像预处理,包括random crop, horizon flip,RGB normalize
正则化,L2正则化,dropout
参数初始化,权重 w 从 N(0,0.01) 中采样,偏差 bias 初始化为0
单一尺度与多尺度训练
这里就不详细说了