VGG16论文解读

苏维皑计算机

已于 2023-05-02 09:21:20 修改

阅读量724

点赞数

文章标签：深度学习图像识别 python

于 2023-04-11 15:37:31 首次发布

本文链接：https://blog.csdn.net/MinevaG/article/details/130085378

版权

VGGNET

VGG16相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核（11x11，7x7，5x5）。对于给定的感受野（与输出有关的输入图片的局部大小），采用堆积的小卷积核是优于采用大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小（参数更少）。简单来说，在VGG中，使用了3个3x3卷积核来代替7x7卷积核，使用了2个3x3卷积核来代替5*5卷积核，这样做的主要目的是在保证具有相同感知野的条件下，提升了网络的深度，在一定程度上提升了神经网络的效果。

在训练期间使用的唯一预处理方式为，在训练集中的每个像素减去RGB三通道的均值。
在网络中只有一层使用了LRN机制，并且在ILSVEC数据集中LRN并不能提高模型的泛化能力，却大大增加了内存和计算所需时间。
在这里插入图片描述

考虑到整个网络的精简结构显示，ReLU激活函数并没有被显示在上述结构中。上述结构中一些说明：
conv表示卷积层，FC表示全连接层，conv3表示卷积层使用3x3 filters，conv3-64表示深度64，maxpool表示最大池化

训练参数： 训练中使用小批量梯度下降和momentum的优化方式采用多项式逻辑回归函数来进行训练，批次大小为256，动量0.9。训练通过权重衰减进行正则化（L2正则化系数为 $\cdot 10^{-4}$ ），并进行dropput操作(操作系数为0.5)，初始学习率为0.01，在验证集准确率停止改变时，减少10倍。训练过程在37万次迭代之后停止（74个epochs）。实验人员推测在网络深度更深参数更多的情况之下，收敛所需轮次更少时由于更大的深度和更小的卷积滤波器尺寸引起的隐式正则化或者某些层的预初始化产生的。

在训练时使用尺度抖动得到了比固定最小边的图像更好的结果，这证实了通过尺度抖动进行的训练集增强确实有助于捕获多尺度图像统计。

VGG优缺点
VGG优点：
1.VGGNet的结构非常简洁，整个网络都使用了同样大小的卷积核尺寸（3x3）和最大池化尺寸（2x2）。
2.几个小滤波器（3x3）卷积层的组合比一个大滤波器（5x5或7x7）卷积层好：
3.验证了通过不断加深网络结构可以提升性能。
VGG缺点：
1.VGG耗费更多计算资源，并且使用了更多的参数（这里不是3x3卷积的锅），导致更多的内存占用（140M）。其中绝大多数的参数都是来自于第一个全连接层。VGG可是有3个全连接层啊！
PS：有的文章称：发现这些全连接层即使被去除，对于性能也没有什么影响，这样就显著降低了参数数量。
注：很多pretrained的方法就是使用VGG的model（主要是16和19），VGG相对其他的方法，参数空间很大，最终的model有500多m，AlexNet只有200m，GoogLeNet更少，所以train一个vgg模型通常要花费更长的时间，所幸有公开的pretrained model让我们很方便的使用。

苏维皑计算机

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
VGG16论文解读

对于给定的感受野（与输出有关的输入图片的局部大小），采用堆积的小卷积核是优于采用大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小（参数更少）。注：很多pretrained的方法就是使用VGG的model（主要是16和19），VGG相对其他的方法，参数空间很大，最终的model有500多m，AlexNet只有200m，GoogLeNet更少，所以train一个vgg模型通常要花费更长的时间，所幸有公开的pretrained model让我们很方便的使用。
复制链接

扫一扫