2.2 VGGNet网络
VGG论文原文在这里。VGG是由Simonyan和Zisserman提出卷积神经网络模型,其名称来源于作者所在的牛津大学视觉几何组(Visual Geometry Group)的缩写。VGG模型和之后提到的GoogleNet模型共同参加了2014年的ImageNet图像分类与定位挑战赛,尽管以0.6%的劣势惜败于GoogleNet,但是其着重于研究网络深度对模型性能的影响,并成功构筑了16-19层深的卷积神经网络,这使得分类错误率大幅下降(相比AlexNet错误率降低了一倍)并增强模型的泛化能力。到目前为止,依然有许多网络使用VGG来提取图像特征。VGGNet也是由卷积层和全连接层组成,可以看成是AlexNet的深化版,并且作者认为只使用3*3的小尺寸卷积核能够显著加深网络的深度。
2.2.1 VGGNet网络结构
在训练过程中,首先对输入图片固定到224*224大小,并对其去均值化(所以输入图片减去RGB的平均值)。为了验证不同卷积层深度对模型性能的影响,VGGNet采用块结构(Block)来构建网络,类似AlexNet,VGGNet中总共有5个Block和3个全连接层,每个Block中又含有若干个卷积层和一个池化层。作者总共测试了6种不同的网络结构的性能,深度从11层到19层不等,其中变化的仅仅是Block中卷积层的数量和卷积核尺寸。卷积层中采用卷积核尺寸均为3*3(有一种策略使用了1*1大小的卷积核,这样的卷积核不改变输入通道的维度且可以提高模型的学习能力),五个池化层皆为最大池化,并且池化核为2*2,步长为2。VGGNet具体网络结构如下所示,其中,convN表示使用N*N的卷积核: