VGG11-19 网络学习笔记

最新推荐文章于 2025-03-28 21:12:15 发布

Mr_M_W

最新推荐文章于 2025-03-28 21:12:15 发布

阅读量2.9k

点赞数

分类专栏： CV 文章标签：计算机视觉卷积神经网络 pytorch

本文链接：https://blog.csdn.net/u013205655/article/details/107091675

版权

CV 专栏收录该内容

4 篇文章

订阅专栏

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

一、介绍

在2012 年AlexNet 夺得ILSVRC 2012 图像分类挑战赛的冠军之后，CNN 便在大规模图像、视频识别中发挥了巨大的作用。VGG 网络在借鉴前人的基础上，研究了卷积网络深度和精度的关系，使用了3*3 小卷积核进行了实验，使用了16-19 层的卷积网络，并在ILSVRC 2014 比赛中获得定位冠军和分类亚军，并且开源了模型。

VGG 借鉴了一些前人的研究，将一些方法用在了自身的网络设计中。ILSVRC-2013分类冠军方法ZFNet，是对AlexNet改进，借鉴了其思想采用小卷积核方法；ILSVRC-2013定位冠军，OverFeat集分类、定位和检测于一体的卷积网络，使用了全卷积代替了全连接，实现高效的稠密（Dense）预测，VGG 在测试技巧中用到了Dense 预测的方法；借鉴了NIN网络，尝试了1*1卷积核提升模型精度

二、网络结构

VGG网络的结构十分的清晰，论文中的表能清楚了看到6中网络结构的变化。图中conv3-64 代表卷积核大小为3*3，卷积核数量为64，conv1-256 代表卷积核大小为1*1，卷积核数量为256，依次类推。

可以看出6个网络都包含5个卷积block, 但每个block 中包含的卷积层不一样；都有5个maxpool，最后一个maxpool后，特征图通道数翻倍直至512；都是通过3个FC层进行分类输出；maxpool之间采用多个卷积层堆叠，对特征进行提取和抽象；分类之前特征图的分辨率都由224*224 变为了7*7

A模型：11层卷积

A-LRN：基于A增加一个LRN

B：第1，2个block中增加1个卷积3*3卷积

C：第3， 4， 5个block分别增加1个1*1卷积

D：第3， 4， 5个block的1*1卷积替换为3*3，

E：第3， 4， 5个block再分别增加1个3*3卷积

参数量如下图所示，可以看到VGG 19 的参数量并没有显著增加，主要是因为全连接层没有改变，卷积层的增加并不会显著增加参数量

在VGG 网络结构中堆叠的使用了3*3卷积，这样做的优点：

1.增大感受野，因为2个3*3堆叠等价于1个5*5，3个3*3堆叠等价于1个7*7

2.多个卷积堆叠，会增加非线性激活函数，增加特征抽象能力

3.小卷积核会减少训练参数

假设输入和输出通道数均为C，忽略bias 项，依据多通道卷积中卷积核权重计算公式：W =C0* Ci*Kh* Kw，1个7*7卷积时参数为：7*7*C*C = 49 *C*C；3个3*3卷积堆叠时参数为：3*(3*3)*C*C = 27 *C*C；参数减少了： (49-27)/49 = 44.9%，总体会降低了很多参数量

在VGG 网络结构中堆叠的使用了1*1卷积，这样做的优点：增加非线性激活函数，提升模型效果

三、训练和测试技巧

1.训练技巧

训练参数设置

Batch size 256，动量是0.9，使用L2 正则化，学习率为0.01，当验证集的准确率不再下降时降低学习率，训练了74 epoch。

初始化

深层的网络用训练好的浅层网络的参数初始化，其中前四层和最后的全连接层使用A 模型参数初始化，中间层随机初始化，Biases 都初始化为0。

we initialised the first four convolutional layers and the last three fullyconnected layers with the layers of net A (the intermediate layers were initialised randomly)

同时作者提到Xavier 初始化的方法值得借鉴。