图解:
文字描述:
输入图像尺寸为224x224x3,经64个通道为3的3x3的卷积核,步长为1,padding=same填充,卷积两次,再经ReLU激活,输出的尺寸大小为224x224x64
经max pooling(最大化池化),滤波器为2x2,步长为2,图像尺寸减半,池化后的尺寸变为112x112x64
经128个3x3的卷积核,两次卷积,ReLU激活,尺寸变为112x112x128
max pooling池化,尺寸变为56x56x128
经256个3x3的卷积核,三次卷积,ReLU激活,尺寸变为56x56x256
max pooling池化,尺寸变为28x28x256
经512个3x3的卷积核,三次卷积,ReLU激活,尺寸变为28x28x512
max pooling池化,尺寸变为14x14x512
经512个3x3的卷积核,三次卷积,ReLU,尺寸变为14x14x512
max pooling池化,尺寸变为7x7x512
然后Flatten(),将数据拉平成向量,变成一维51277=25088。
再经过两层1x1x4096,一层1x1x1000的全连接层(共三层),经ReLU激活
最后通过softmax输出1000个预测结果
VGG网络的优缺点:
VGG优点:
- VGGNet的结构非常简洁,整个网络都使用了同样大小的卷积核尺寸(3x3)和最大池化尺寸(2x2)。
- 几个小滤波器(3x3)卷积层的组合比一个大滤波器(5x5或7x7)卷积层好:
- 验证了通过不断加深网络结构可以提升性能。
VGG缺点:
从参数计算那节可以看出,VGG耗费更多计算资源,并且使用了更多的参数(这里不是3x3卷积的锅),导致更多的内存占用(140M)。其中绝大多数的参数都是来自于第一个全连接层。且VGG有3个全连接层。