VGG（大规模图像识别的深度卷积神经网络）论文解读

桑_榆

已于 2023-03-08 14:20:05 修改

阅读量408

点赞数 1

分类专栏：图像分类经典论文文章标签： cnn 深度学习神经网络

于 2023-02-17 21:49:25 首次发布

本文链接：https://blog.csdn.net/shengweiit/article/details/128895149

版权

图像分类经典论文专栏收录该内容

4 篇文章 0 订阅

订阅专栏

VGG模型由KarenSimonyan和AndrewZisserman在2015年ICLR提出，以其小卷积核堆叠和深度著称。该模型在ILSVRC2014中取得显著成绩，推动了3x3卷积核的广泛应用。VGG通过多尺度测试和数据增强策略提升性能，展示了深度对分类准确性的影响。此外，1x1卷积用于增加非线性，优化模型结构。

摘要由CSDN通过智能技术生成

Very deep convolutional networks for large-scale image recognition
大规模图像识别的深度卷积神经网络
作者：Karen Simonyan & Andrew Zisserman
单位：VGG（牛津大学视觉几何组）
发表会议及时间：ICLR 2015

一论文总体创新点

模型结构设计上：首次采用小卷积核堆叠使用卷积核分辨率减半，通道数翻倍
训练技巧上：增加了尺度扰动预训练模型初始化
测试技巧上：多尺度测试（Dense测试/Multi-crop测试）多模型融合

二研究背景、成果和意义

2.1 研究背景

这个模型是在ILSVRC2014挑战赛上产生的，在这个竞赛上脱颖而出大量的经典模型：AlexNet、VGG、GoogLeNet等。

AlexNet：ILSVRC-2012 分类冠军，里程碑的CNN模型。
ZFNet：ILSVRC-2013分类冠军，对AlexNet改进。
OverFeat：ILSVRC-2013定位冠军，集分类、定位和检测于一体的卷积网络方法。

VGG借鉴了AlexNet卷积模型结构，借鉴了ZFNet采用小卷积核的思想，普遍用3X3卷积核，借鉴了OverFeat全卷积，实现高效的稠密预测（Dense），尝试1X1的卷积核。

2.2 研究成果

VGG在比赛中取得定位第一，分类第二的成绩 GoogLeNet取得分类第一，定位第二的成绩。
开启了小卷积核时代：3X3成为主流模型
作为各类分类任务的骨干网络模型结构：分类、定位、检测、分割一系列图像任务大都有VGG作为backbone。

三摘要的核心

在大规模图像识别任务中，探究卷积网络深度对分类准确率的影响
研究3*3卷积核增加网络模型深度的卷积网络的识别性能，同时将模型加深到16-19层

四 VGG结构

论文中给出了ConvNet Configuration五个模型的架构，从VGG11到VGG19，可以看下图，论文中给出的结构模型。
VGG
从VGG11到VGG19 他们的共性有：首先有5个Maxpool，这个的作用是降低分辨率，一个Maxpool的话可以一张图片的分辨率降低1/2，用5个的话就是32倍，从图上看输入是224，经过第一个Maxpool后变为112，依次分辨率减半，但是他的通道数是依次增加的，为了不损失精度的做法。然后是用3个FC层进行分类输出，Maxpool之间采用多个卷积层堆叠，对特征进行抽取和抽象。

为什么从VGG11层开始！？论文中提到Goodfellow et al. (2014) applied deep ConvNets (11 weight layers) to the task of street number recognition。

从VGG11 到 VGG19他的演变过程是：A是11层到A-LRN在第一个卷积层上加了LRN，但是效果不是很好，LRN也就在这篇论文中被毙掉了，然后B模型是在第1、2个block中增加了1个卷积33卷积核，C模型在第3、4、5个block分别增加了1个11卷积核，表明增加非线性有益于提升指标。D模型在3、4、5个block将1X1的卷积核替换为3X3，E模型分别在D的基础上，又加了1个3X3卷积。

但是，参数量的话并没有增加多少。请添加图片描述

五 VGG特点

5.1 堆叠3X3卷积

增大感受野
2个3X3卷积相当于1个5X5卷积
同理3个3X3卷积堆叠等价于一个7X7卷积
增加非线性激活函数，增加特征抽象能力‘
减少了训练参数
可看成是7X7卷积核的正则化，强迫分解为3X3

这里减少的参数计算方法：
假设输入、输出通道均为C个通道，一个7X7卷积核需要的参数：7X7XCXC ，三个3X3卷积核所需要参数量：3X（3X3XCXC），参数减少比 44%