VGG: VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

最新推荐文章于 2022-09-01 00:02:51 发布

TWSF

最新推荐文章于 2022-09-01 00:02:51 发布

阅读量1.1k

点赞数

分类专栏：计算机视觉文章标签： CV CNN

本文链接：https://blog.csdn.net/dcz1994/article/details/88837118

版权

计算机视觉专栏收录该内容

19 篇文章 0 订阅

订阅专栏

Abstract:

我们的工作是研究更加深的卷及网络对于大规模机器学习的影响. 我们的主要贡献是使用3X3的非常小的卷积层来增加网络的深度改善其性能, 最终的深度在16~19层. 这些发现是基于14年的比赛上的提交, 队伍在目标定位和图像分类方面分别获得了第一和第二.我们同时展示了我们的网络对于别的数据集也有同样的适用性, 他们获得了世界顶尖的水平. 我们已将我们的两种性能最好的ConvNet模型公诸于众，以便于进一步研究在计算机视觉中使用深度视觉表示的问题。

1 INTRODUCTION

卷及网络最近在大规模数据集和视频识别上的成功源于更大量的数据集, 比如ImageNet, 更好的计算能力, 比如GPU和大规模分布式系统. 特别的, ILSVRC竞赛也在促进深度学习发展扮演者一个重要的角色, 作为几代大规模图像分类系统的实验平台，从高维度表面特征卷积到深度卷积.

随着卷积网络在视觉方面的有利, 有越来越多的对于网络结构改进的尝试以获得更好的精准度. 比如, 在ILSVRC-2013上最好的提交方案是利用更小的接受窗口和更小的stride在第一层网络层. 另一项改进涉及到在整个图像和多尺度上密集地对网络进行培训和测试。在本文中我们强调另外一个重要的卷积网络改进尝试: 增加网络的深度. 为了这个目的, 我们固定一些结构的参数, 通过增加更多的卷积层持续的增加网络的深度. 这是合理的源于我们使用了3X3的卷积滤波器在所有的层.

总之, 我们提到的更精准的cnn结构, 不仅获得了state of the art(在ILSVRC的分类和定位任务中), 同时我们也应用在别的数据设别中. 甚至在部分单通道获得了卓越的效果. 我们发布了两个最好的模型以助于更深远的研究.

剩下的论文如下: sect2描述了vgg的配置, sect3是图片分类的训练和评估的细节. sect4是在ILSVRC中对比配置. sect5是总结. 为了完善性, 我么也在Appendix A描述和评估了ILSVRC-2014目标定位系统. 在Appendix B讨论了归纳了深度特征对于数据集. 最终在Appendix C中包含主要的论文修改list

2 CONVNET CONFIGURATIONS

2.1 Architecture

在训练期间, VGG的输入时224X224RGB图片. 仅有的预处理是零均值化, 在训练集上运算对于每一个像素. 图片通过每一个卷积层. 我们使用非常小的3X3的滤波器. 其中1X1的滤波器也在我们的配置中. 可以看做一个线性输入渠道. stride固定为1, 卷积层的空间填充是为了在卷积之后保持空间的分辨率. 比如, 对于3X3的卷积填充是1像素(上下左右). 有5个max-pooling层, 跟在一些卷积层之后(不是每个后面都有). max-pooling 是在2X2的窗口, stride=2.

在所有的卷积层之后是三层全连接层(FC): 第一个是4096个通道, 第三个是1000分类, 最终层是softmax层. 全连接在所有的网络配置中都是相同的.

所有的隐藏层是配置了ReLU非线性激活器. 但是没有使用LRN标准化: 我们在sect4展示这样的标准化对于竞赛的数据集没有任何的改善,但却增加了内存的消耗和计算时间, 如果可能的话, the parameters for the LRN layer are those of (Krizhevsky et al., 2012).

2.2 CONFIGURATIONS

以下是A-E六个网络结构, 表2是参数的数量.

2.3 DISCUSSION

我们的网络配置和之前竞赛中的网络是非常不同的. 相比于非常大的滤波器(7X7stride2), 我们使用了3X3滤波器stride=1, 容易看到, 堆叠两个3X3conv就是和一个5X5的conv等效, 堆叠三个就是和一个7X7的等效. 所以我们通过使用3X3到底获得了什么呢? 比如, 为什么是三个堆叠的3X3的, 而不是只一个7X7的. 首先, 我们包含三个非线性调整层而不是一个. 这使得决策函数更具有判断力. 第二点, 我们减少了参数的数量: 假设我们输入和输出都有C个通道, 那么对于堆叠的参数是3^3*C^2, 但是对于一个7X7的则是由49C^2的参数. 这可以看做是7X7的一个规则,强迫他们分解成3X3的滤波器.

包含1X1的卷积层是一个增加决策函数的非线性而又不影响conv层的接受域的方式. 即在我们的case中1X1卷积本质上是一个线性设计在相同的空间维度上(输入和输出的通道是相同的), 而非线性则是被修正函数引入的。需要注意的是1X1卷积层又被用于"network in network"中(2014的一个网络).

小的卷积是在2011年就被使用了, 但是他们的网络是比我们浅的, 而且他们也没有在大规模数据集上评估. goodfellow'被用于11层的convNets对于街道数量的识别, 展示了增加深度趋向更好的性能, GooLeNet在2014年是top-performing, 是和我们的网络独立发展的. 但是相似的都是基于深度的卷积层和小的卷积层. 然而他们的网络结构但是非常复杂的比我们, 而且我们特征映射的空间分辨率更猛烈地减少在第一层卷积，以减少计算量。正如Sect4.5展示的, 就单网络分类的准确性而言, 我们的模型优于Szegedy等人的模型(2014)。

3 CLASSIFICATION FRAMEWORK

这个部分描写VGG的训练和评估细节

3.1 TRAINING

ConvNet的训练过程和AlexNet是相似的. 也就是说, 通过训练优化logistic回归使用mini-batch梯度下降, batch size=256, momentum=0.9, 训练的权重采用正则化(L2惩罚系数=5*10^-4)和对于前两个FC层实行dropout规则(dropout ratio = 0.5). 学习率初始-0.01, 当验证集的精度停止提高时，学习率下降了10倍. 总的来说学习率下降了3次, 学习在370K次迭代后停止(74epochs). 我们推测尽管参数很多而且相比于AlexNet我们的网络也很深, 网络需要更小的epochs去收敛源于(1)隐式正则化由更大的深度和较小的Conv所决定的;(2)某些层的预初始化。

网络权重的初始化是重要的, 糟糕的初始化可能拖延学习是由于深层次的梯度不稳定性, 为了避免这个问题, 我们开始训练net-A, 是可以随机初始化训练的. 当训练更深层次的结构时, 我们初始化前四个和后三个全连接层于配置A的参数(中间层随机初始化). 我们不改变学习率对于之前初始化的层次, 允许他们在学习期间改变. 对于随机初始化, 我们从均值=0,方差=0.01的正太分布中取样. 偏差初始化为0.值得注意的是在论文提交之后, 我们发现权重可以通过Glorot&Bengio生成随机初始化而不再训练.

对于获取固定大小的224X图片, 他们从重新定义尺寸的训练数据中随机裁剪. 为了更加的扩张数据集, 可以水平反转和RGB颜色移动(AlexNet), 训练图片的重新规模是解释如下:

Training image size:

让S代表来自cnn输入图片重新裁剪之后的最小的边长, 也可以称S为训练尺度, 裁剪大小固定为224X224, 原则上S可以有任意的不小224的值, 对于S=224, 裁剪将整个图片捕获, 完全扩展训练图像的最小边. 对于S>=224, 裁剪对应于图像的一小部分，包含一个物体或者一个物体部分。

我们考虑两个方法对于设置训练尺度S. 第一个是固定S. 也就是单一尺度的训练. 在我们的实验中, 我们评估模型训练在两个固定的维度中: S=256和S=384. 给与一个卷积配置, 我们首先训练网络用256. 加速s=384网络的训练. 他是初始化与训练S=256的参数, 而且我们初始更小的学习率0.001.

第二个方法是设置S为多尺度训练, 其中每个图像通过特定范围[S min，S max](我们使用S min = 256和S max = 512)随机采样S来单独地重新调整每个训练图像。由于图像中的物体可以具有不同的尺寸，因此在训练期间考虑这一点是有益的。这也可以被视为通过尺度抖动的训练集增强，其中训练单个模型以识别各种尺度上的对象。出于速度原因，我们通过使用相同配置微调单级模型的所有层来训练多尺度模型，使用固定的S = 384进行预训练.

3.2 Testing

测试时, 给与一个训练过的cnn并且输入一个图片, 它是被分类如下方式: 首先, 它被等轴地归一化为一个预先定义好的image side, 记作Q(也叫测试尺度). Q不必相等于S. 然后，以类似于sermanet al.(sermanet al.，2014)的方式密集地应用于归一化的测试图像上。也就是说, 完全连接的层首先转换为卷积层(第一层FC层为7×7 Conv)。层，最后两个FC层为1×1 conv。全连接卷积网络用于整个图片. 结果是类得分图的通道数等于类别的数量，以及取决于输入图像大小的可变空间分辨率. 最后，为了获得图像的类别分数的固定大小的向量，类得分图在空间上平均（和池化). 我们也扩张测试集通过水平反转.将原始图像和翻转图像的soft-max类后验进行平均，以获得图像的最终分数。

由于全卷积网络是用于整个图片, 所以在测试时不需要抽取多个裁剪. 这是不太有效的，因为它需要对每一种裁剪进行网络重新计算。同时, 使用一个裁剪的大集合, 就像Szegedy团队做的那样, 可以改善精准度, 因为它使输入图像的采样比完全卷积网更精细。此外，对于不同的卷积边界条件，多重裁剪是对密集评估的补充:当把裁剪的集合输入CNN时. 会卷入0填充的特征值, 而在密集评估的情况下，同一裁剪的填充自然来自图像的相邻部分（由于卷积和空间池化），这大大增加了整个网络的感受野，因此捕获了更多的上下文。虽然我们认为实际上多种裁剪的计算时间增加并不能证明准确性的潜在增益, 但是作为参考, 我们也是通过每种尺度50个裁剪(5X5=25规则网格, 2次翻转, 共50个)评估我们的网络, 对于3个scales的150个裁剪, 与Szegedy团队的4scales的144个裁剪相当.

3.3 implementation details

我们的实现是源于Caffe工具, 但是包含一些重要的修改, 以允许我们去执行训练和评估在安装多个GPU的系统上. 作为训练和评估在没有裁剪的图片在多个尺度. 多GPU训练利用数据并行性, 通过将每批训练图像分成几个GPU来实现批处理, 在每个GPU上并行处理. 在计算GPU批量梯度之后，对它们进行平均以获得完整批次的梯度。梯度计算在GPU之间是同步的，因此结果与在单个GPU上训练时的结果完全相同。梯度计算在GPU之间是同步的，因此结果与在单个GPU上训练时的结果完全相同。

虽然最近提出了更加复杂的加速ConvNet培训的方法（Krizhevsky，2014），它采用了网络不同层次的模型和数据并行性，但我们发现，我们在概念上更加简单的方案已经提供了3.75倍的关闭速度。与使用单个GPU相比，这种架子式4-GPU系统。在配备有4个NVIDIA Titan Black GPU的系统上，根据架构的不同，训练单网需要2-3周。

4 Classification experiments

数据集:

这个部分, 我们描述的CNN结构在ILSVRC-2012数据集上的分类结果. 数据集包含1000个类, 分割成三个集合: 训练集(1.3M), 验证集(50K), 测试集(100K,没有分类标签), 分类通过两个方案评估: top-1和top-5错误率. top-1是multi-class分类错误率.top-5(即对一个图片，如果概率前五中包含正确答案，即认为正确)是ILSVRC中主要的评估标准, 并且计算为图像真是类别在前5个预测类别之外的图像比例.

对于大多数实验，我们使用验证集作为测试集。在测试集上也进行了一些实验，并将其作为ILSVRC-2014竞赛（Russakovsky等，2014）“VGG”小组的输入提交到了官方的ILSVRC服务器。

4.1 SINGLES CALEE VALUATION

我们开始评估在individual CNN模型的执行在一个单尺寸同Sect2.2描述的那样, test图片大小是Q=S对于固定的S, Q= (Smin+Smax)/2 对于S属于[Smin,Smax].

首先, 我们注意到使用局部响应正则化(A-LRN)没有改善相比于没有任何正则化的模型A. so不再使用正则化.

其次, 我们观察随着网络加深分类错误率下降:从11层的A到19层的E. 显著的是, 即使深度相似, C的配置执行糟糕的比D(使用了3个1X1conv), 这个意味着附加的非线性没有帮助, 使用conv与非正常的接受域对于捕获空间context也是非常重要的. 当深度达到19层时，我们的结构的错误率就会饱和, 但是更深的网络可能对于更大的数据集是有益的. 将B网与5×5的卷积层浅网进行了比较, 也每对3X3的卷积代替为5X5的卷积. shallow net的top-1错误率是比B高7%. 确认了更小了滤波器对于深度网络执行结果优于shallow net大的滤波器.

最后, 训练时尺度抖动(S属于[256:512])引领到更好的结果比在固定小的side(S=256或384),即使在测试时使用单一的刻度。证明训练集合通过尺度抖动而扩张是对于捕获多尺度图片统计是有益的.

4.2 MULTI SCALE EVALUATION

在单尺度上评估ConvNet模型后，我们现在评估测试时尺度抖动的影响。它包括在一张测试图像的几个归一化版本上运行模型（对应于不同的Q值），然后对所得到的类别后验进行平均。考虑到训练和测试尺度之间的巨大差异会导致性能下降，用固定S训练的模型在三个测试图像尺度上进行了评估，接近于训练一次：

同时，训练时的尺度抖动允许网络在测试时应用于更广的尺度范围，所以用变量训练的模型在更大的尺寸范围上进行评估。

表4中给出的结果表明，测试时的尺度抖动导致了更好的性能（与在单一尺度上相同模型的评估相比，如表3所示）。如前所述，最深的配置（D和E）执行最佳，并且尺度抖动优于使用固定最小边S的训练。我们在验证集上的最佳单网络性能为24.8％/7.5％ top-1/top-5的错误率（在表4中用粗体突出显示）。在测试集上，配置E实现了7.3％ top-5的错误率。

4.3 M ULTI - CROP EVALUATION

在表5中，我们将稠密ConvNet评估与多裁剪图像评估进行比较（细节参见第3.2节）。我们还通过平均其soft-max输出来评估两种评估技术的互补性。可以看出，使用多裁剪图像表现比密集评估略好，而且这两种方法确实是互补的，因为它们的组合优于其中的每一种。如上所述，我们假设这是由于卷积边界条件的不同处理。

表5：ConvNet评估技术比较。在所有的实验中训练尺度S从[256；512]采样，三个测试适度Q考虑：{256, 384, 512}。

4.4 CONV NET FUSION

到目前为止，我们评估了ConvNet模型的性能。在这部分实验中，我们通过对soft-max类别后验进行平均，结合了几种模型的输出。由于模型的互补性，这提高了性能，并且在了2012年（Krizhevsky等，2012）和2013年（Zeiler＆Fergus，2013；Sermanet等，2014）ILSVRC的顶级提交中使用。

结果如表6所示。在ILSVRC提交的时候，我们只训练了单规模网络，以及一个多尺度模型D（仅在全连接层进行微调而不是所有层）。由此产生的7个网络组合具有7.3％的ILSVRC测试误差。在提交之后，我们考虑了只有两个表现最好的多尺度模型（配置D和E）的组合，它使用密集评估将测试误差降低到7.0％，使用密集评估和多裁剪图像评估将测试误差降低到6.8％。作为参考，我们表现最佳的单模型达到7.1％的误差（模型E，表5）。

4.5 C OMPARISON WITH THE S TATE OF THE A RT

表6：多个卷积网络融合结果

最后，我们在表7中与最新技术比较我们的结果。在ILSVRC-2014挑战的分类任务（Russakovsky等，2014）中，我们的“VGG”团队获得了第二名，

使用7个模型的组合取得了7.3％测试误差。提交后，我们使用2个模型的组合将错误率降低到6.8％。

表7：在ILSVRC分类中与最新技术比较。我们的方法表示为“VGG”。报告的结果没有使用外部数据。

5 C ONCLUSION

在这项工作中，我们评估了非常深的卷积网络（最多19个权重层）用于大规模图像分类。已经证明，表示深度有利于分类精度，并且深度大大增加的传统ConvNet架构（LeCun等，1989；Krizhevsky等，2012）可以实现ImageNet挑战数据集上的最佳性能。在附录中，我们还显示了我们的模型很好地泛化到各种各样的任务和数据集上，可以匹敌或超越更复杂的识别流程，其构建围绕不深的图像表示。我们的结果再次证实了深度在视觉表示中的重要性.

A Localisation

在论文的主干部分我们讨论了ILSVRC挑战的分类任务, 并且对于不同深度的CNN进行评估. 在这个部分, 我们转变挑战的定位任务, 我们在2014年赢得了25.3%的误差. 他可以看做目标检测的一个特别的情况, top-5分类的每一个单一的目标边界框应该是被预测的, 而和一个class里面的目标的实际数量是没有关系的. 对于这个问题我们采取了Sermanet团队的方法, 做了一些改动, 下面将描述我们的模型.

A.1 Localisation convnet

对于目标定位, 我们使用一个非常深的卷积网络, 最后FC层预测边界的框而不是class scores.一个边界框是被一个思维的向量代表: 中心点坐标, 宽和高. 有一个选择是是否所有的类边界框共享. 在前面的例子中, 最后一层是4维, 而如果不共享, 则最后一层是4000维(因为有1000个分类). 先不考虑最后的边界层, 我们使用网络D(table1)包含16个权重层, 是被发现有最好的执行效果在分类任务中.

Training. 定位卷积的训练是和分类任务相似的. 主要的不同时我们用Euclidean loss 取代 logistic, 代表预测的边界框参数与真实值的偏差。我们训练了两个localisation模型, 分别是S=256和S=384(主要是没有空做抖动S). 训练初始化时和分类模型相同, 初始学习率是0.001/ 通过微调所有层和微调前两个FC. 最后FC随机初始化, 然后从无到有的训练.

Testing. 我们考虑两种测试协议.第一个用于比较验证集上的不同网络修改，并仅考虑基础事实类的边界框预测（以分解分类错误）。通过仅将网络应用于图像的中心裁剪来获得边界框。第二个完全成熟的测试程序基于将定位ConvNet密集应用于整个图像. 不同之处在于，最后一个完全连接的层的输出是一组边界框预测，而不是类得分图.为了得出最终预测，我们利用Sermanet等人的贪婪合并程序. 首先合并空间上接近的预测（通过平均他们的坐标），然后根据从分类ConvNet获得的类别分数对它们进行评估。当使用几个localisation ConvNets时，我们首先take union它们的边界框预测集合，然后在union上运行合并程序。我们没有使用Sermanet等人的multiple pooling offsets technique。（2014），它增加了边界框预测的空间分辨率，并可以进一步改善结果.

A.2 L OCALISATION E XPERIMENTS

在本节中，我们首先确定性能最佳的localisation setting (使用第一个测试协议），然后在完全成熟的场景（第二个协议）中对其进行评估.根据ILSVRC标准测量定位误差，即如果边界框预测与真实边界框的交联超过0.5，则认为边界框预测是正确的。

Settings comparison. 从表8中可以看出，per class regression（PCR）优于类别不可知的single-class regression （SCR). 我们还注意到，微调localisation任务的所有层导致明显更好的结果，而不是仅对完全连接的层进行微调.在这些实验中，最小图像侧设定为S = 384;S = 256的结果表现出相同的行为，为简洁起见未示出。

表8：使用简化测试协议进行的不同修改的localisation错误

从单个中心图像裁剪预测边界框，并使用真值类. 所有ConvNet层（除最后一层）都具有配置D（表1），而最后一层执行单类回归（SCR）或每类回归（PCR）。

Fully-fledged evaluation. 在确定了最佳的localisation设置（PCR，微调所有层）之后，我们现在将其应用于完全成熟的场景，其中使用我们的最佳性能分类系统（第4.5节）预测top-5类标签，并且多个使用Sermanet等人的方法合并密集计算的边界框预测。从表9中可以看出，与使用中心裁剪（表8）相比，将定位ConvNet应用于整个图像显着改善了结果，尽管使用前5个预测类标签而不是真实的。与分类任务（第4节）类似，在多个尺度上进行测试并结合多个网络的预测进一步提高了性能。

Comparison with the state of the art. 我们将最佳localisation结果与表10中的最新技术水平进行比较。由于25.3％的测试误差，我们的“VGG”团队赢得了ILSVRC-2014的localisation挑战。值得注意的是，我们的结果比ILSVRC-2013冠军Overfeat的结果要好得多，尽管我们使用较少的比例并且没有采用他们的分辨率增强技术。我们设想如果将这种技术结合到我们的方法中，可以实现更好的定位性能。这说明我们非常深的cnn带来的优势: 我们获得了更好的结果通过简单的localisation方法.

B GENERALISATION OF VERY DEEP FEATURES

在前面的部分中，我们讨论了ILSVRC数据集上非常深的ConvNets的训练和评估。在本节中，我们将在ILSVRC上预先训练的ConvNets评估为其他较小数据集上的特征提取器，其中由于过度拟合而无法从头开始训练大型模型。最近，人们对这种用例感兴趣（Zeiler＆Fergus，2013; Donahue等，2013; Razavian等，2014; Chatfield等，2014），因为它证明了这一用例在ILSVRC上学习的表示可以很好地概括为其他数据集，它们在很大程度上优于手工制作的表示。在这一系列工作之后，我们将研究我们的模型是否能够比在最先进的方法中使用的更浅层模型获得更好的性能。在本次评估中，我们考虑了两种在ILSVRC（第4节）上具有最佳分类性能的模型 - 配置“Net-D”和“Net-E”（我们公开发布）。

为了利用在ILSVRC上进行预训练的ConvNets，对其他数据集进行图像分类，我们删除了最后一个完全连接的层（执行1000路ILSVRC分类），并使用倒数第二层的4096-D激活作为图像特征，它们是聚合的，跨越多个位置和尺度。得到的图像描述符是L 2 - 标准化并且与在目标数据集上训练的线性SVM分类器组合。为简单起见，预先训练的ConvNet权重保持固定（不执行微调).

特征的聚合以与ILSVRC评估程序类似的方式进行（第3.2节）即，首先对图像进行重新缩放，使其最小边等于Q，然后在图像平面上密集地施加网络（当所有权重层都被视为卷积时，这是可能的）。然后，我们在生成的特征映射上执行全局平均池，从而生成4096-D图像描述符。正如在Sect4.2中所示对多个尺度的评估是有益的，因此我们提取多个尺度的特征Q.得到的多尺度特征可以跨尺度堆叠或汇集. 堆叠允许后续分类器学习如何在一系列尺度上最佳地组合图像统计;然而，这是以增加描述符维度为代价的。我们在下面的实验中回到这个设计选择的讨论。我们还评估了使用两个网络计算的特征的后期融合，其通过堆叠它们各自的图像描述符来执行。

VOC-2007和VOC-2012的图像分类。我们首先评估PASCAL VOC-2007和VOC-2012基准的图像分类任务（Everingham等，2015）这些数据集分别包含10K和22.5K图像，每个图像用一个或多个标签注释，对应于20个对象类别。VOC组织者提供预定义的分为培训，验证和测试数据（VOC 2012的测试数据不公开;相反，提供官方评估服务器）。使用不同类别的平均精度（mAP）测量识别性能。

值得注意的是，通过检查VOC-2007和VOC-2012验证集的性能，我们发现通过平均计算在多个尺度上计算的图像描述符的聚合与堆叠聚合类似。我们假设这是因为在VOC数据集中，对象出现在各种尺度上，因此没有特定的特定于尺度的语义，分类器可以利用这些语义。由于平均具有不夸大描述符维度的好处，因此我们能够在很大范围内聚合图像描述符：Q∈{256,384,512,640,768}。值得注意的是，{256,384,512}较小范围内的改善相当微不足道（0.3％）。

报告了测试集的性能，并与表11中的其他方法进行了比较。我们的网络“Net-D”和“Net-E”在VOC数据集上表现出相同的性能，他们的组合轻微改善了结果。我们的方法在ILSVRC数据集上预先训练的图像表示中设置了新的技术水平，优于Chatfield等人之前的最佳结果。（2014年）超过6％. 应该注意的是Wei等人的方法。（2014），在VOC-2012上实现了1％更好的mAP，在2000级ILSVRC扩展数据集上预先培训，其中包括额外的1000个类别，在语义上接近于VOC数据集中的类别。它还受益于与物体检测辅助分类管道的融合。

ImageClassificationon Caltech-101和Caltech-256。在本节中，我们评估了Catech-101（Fei-Fei等，2004）和Caltech-256（Griffin等，2007）图像分类基准的每个深层特征。Caltech-101包含标记为102个类别（101个对象类别和背景类别）的9K图像，而Caltech-256更大，具有31K图像和257个类别。这些数据集上的标准评估协议是生成几个随机分组到训练和测试数据中，并报告分裂中的平均识别性能，这是通过平均类别回忆（其补偿每个类别的不同数量的测试图像）来测量的。继Chatfield等人（2014年）; Zeiler＆Fergus（2013）;他等人。（2014年），在Caltech-101上，我们生成了3个随机分组到训练和测试数据中，因此每个分组包含每个类30个训练图像，每个类最多50个测试图像。在Caltech-256上，我们还生成了3个分裂，每个分裂包含60个训练图像（其余用于测试）。在每次分割中，20％的训练图像被用作超参数选择的验证集。

我们发现，与VOC不同，在加州理工学院的数据集中，在多个尺度上计算的描述符堆叠比平均或最大池化表现更好。这可以通过以下事实来解释：在Caltech图像中，对象通常占据整个图像，因此多尺度图像特征在语义上是不同的（捕获整个对象与对象部分），并且堆叠允许分类器利用这种特定于比例的表示。我们使用三个尺度Q∈{256,384,512}。

我们的模型与其他每个模型和表11中的theart状态进行了比较。可以看出，更深层的19层Net-E比16层Net-D表现更好，它们的组合进一步提高了性能。在Caltech-101上，我们的陈述与Heetal (2014）的方法相比具有竞争力，然而，这种方法的表现明显差于我们在VOC2007上的网络。在Caltech-256上，我们的功能大大超过了现有技术水平（Chatfield等，2014），大幅提升（8.6％）。

VOC-2012的行动分类。我们还在PASCAL VOC-2012行动分类任务（Everingham等，2015）上评估了我们表现最佳的图像表示（Net-D和Net-E特征的堆叠），其中包括从单个预测动作类图像，给出执行动作的人的边界框。该数据集包含4.6K训练图像，标记为11个类。与VOC-2012对象分类任务类似，使用mAP测量性能。我们考虑了两种训练设置：（i）在整个图像上计算ConvNet特征并忽略提供的边界框; （ii）计算整个图像和所提供的边界框上的特征，并堆叠它们以获得最终表示。将结果与表12中的其他方法进行比较。

即使不使用提供的边界框，我们的表示也实现了VOC动作分类任务的现状，并且当使用图像和边界框时，结果得到进一步改善。与其他方法不同，我们没有包含任何特定于任务的启发式方法，而是依赖于非常深度卷积特征的表示能力。

其他识别任务。自公开发布我们的模型以来，它们一直被研究界广泛用于各种图像识别任务，始终优于更浅层的表示。例如，Girshick等。（2014）通过替换Krizhevsky等人的ConvNet来实现目标检测结果的状态。（2012）与我们的16层模型。与Krizhevsky等人的更浅层架构相似。（2012）已经在语义分割（Long et al。，2014），图像标题生成（Kiros et al。，2014; Karpathy＆Fei-Fei，2014），纹理和材料识别（Cimpoi等，2014; Bell等，2014）。

TWSF

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
VGG: VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

Abstract:我们的工作是研究更加深的卷及网络对于大规模机器学习的影响. 我们的主要贡献是使用3X3的非常小的卷积层来增加网络的深度改善其性能, 最终的深度在16~19层. 这些发现是基于14年的比赛上的提交, 队伍在目标定位和图像分类方面分别获得了第一和第二.我们同时展示了我们的网络对于别的数据集也有同样的适用性, 他们获得了世界顶尖的水平. 我们已将我们的两种性能最好的Con...
复制链接

扫一扫