Abstract
- 卷积网络是大多数最先进的计算机视觉解决方案的核心,适用于各种任务。自2014年以来,非常深刻的卷积网络开始成为主流,在各种基准测试中取得了实质性进展。虽然增加的模型大小和计算成本倾向于转化为大多数任务的即时质量增益(只要为训练提供足够的标记数据),计算效率和低参数计数仍然是各种用例的可行因素,例如移动视觉和大型 - 数据场景。
- 在这里,我们正在探索扩大网络的方法,旨在通过适当的分解卷积和积极正则化尽可能有效地利用增加的计算。我们在ILSVRC 2012分类挑战验证集上对我们的方法进行了基准测试,证明了相比现有技术水平的显着提升:使用具有50亿个计算成本的网络进行单帧评估时,前导率为1%,前5%误差为5.6% - 每个推断 并使用少于2500万个参数
Introduction
- 自2012年ImageNet竞赛获奖作者Krizhevsky等以来,他们的网络“AlexNet”已成功应用于更多种类的计算机视觉任务,例如对象检测,分割 ,人体姿态估计,视频分类,目标跟踪和超分辨率。这些成功推动了一系列新研究,重点是寻找更高性能的卷积神经网络。 从2014年开始,通过利用更深入,更广泛的网络,网络架构的质量得到了显着提升。
- 一个有趣的观察结果是,分类性能的提升倾向于转移到各种应用领域的显着质量增益。 这意味着可以利用深度卷积体系结构中的体系结构改进来提高大多数其他计算机视觉任务的性能,这些任务越来越依赖于高质量的学习视觉特性。此外,在AlexNet功能无法与手工设计,精心设计的解决方案竞争的情况下,网络质量的改进为卷积网络带来了新的应用领域。
- 尽管VGGNet具有建筑简洁性的引人注目的特性,但这需要很高的成本:评估网络需要大量的计算。 另一方面,GoogLeNet 的Inception架构也被设计为即使在严格的内存和计算预算约束下也能很好地运行。 例如,GoogleNet只使用了500万个参数,相比之前的AlexNet,它使用了6000万个参数,减少了12倍。 此外,VGGNet使用的参数比AlexNet多3倍。Inception的计算成本也远低于VGGNet或其更高性能的后继者。 这使得在大数据场景中使用Inception网络变得可行。需要以合理的成本处理大量数据的情况或者存储器或计算能力固有地受限的情况,例如在移动视觉设置中。此外,这些方法也可用于优化初始架构,再次扩大效率差距。
- 尽管如此,Inception体系结构的复杂性使得更难以对网络进行更改。 如果架构是天真地扩展的,那么大部分计算增益可能立即丢失。此外,[20]没有提供有关导致GoogLeNet架构的各种设计决策的因素的清晰描述。这使得在保持其效率的同时使其更难以适应新的用例。
- 在本文中,我们首先描述一些通用原理和优化思想,这些原理和优化思想被证明对于以有效的方式扩展卷积网络是有用的。虽然我们的原则不仅限于Inceptiontype网络,但它们在该上下文中更容易观察,因为Inception样式构建块的通用结构足够灵活,可以自然地合并这些约束。这可以通过大量使用Inception模块的尺寸减小和平行结构来实现,这可以减轻结构变化对附近部件的影响。 仍然需要谨慎对待这样做,因为应该遵守一些指导原则以保持模型的高质量。
General Design Principles
- 在这里,我们将描述一些基于大规模实验的设计原则,以及卷积网络的各种架构选择。在这一点上,以下原则的效用是推测性的,并且将需要额外的未来实验证据来评估其准确性和有效性领域。但是,严重偏离这些原则往往导致网络质量的恶化,并且在检测到这些偏差的情况下导致一般的架构改进。
- 避免代表性瓶颈,特别是在网络早期。 前馈网络可以由从输入层到分类寄存器的非循环图表示。这为信息流提供了明确的方向。 对于将输入与输出分开的任何切割,可以访问通过切割的信息量。人们应该避免极端压缩的瓶颈。 通常,在到达用于手头任务的最终表示之前,表示大小应从输入到输出逐渐减小。从理论上讲,信息内容不能仅仅通过表示的维度来评估,因为它丢弃了相关结构等重要因素; 维度仅提供信息内容的粗略估计。
- 更高维度的表示更容易在网络内本地处理。 在卷积网络中增加每个区块的激活允许更多解开特征。 由此产生的网络将加快训练。空间聚合可以在较低维度嵌入上完成,而代表功率没有太大或任何损失。 例如,在执行更加展开(例如3×3)卷积之前,可以在空间聚合之前减小输入表示的维度而不期望严重的不利影响。 我们假设,如果输出用于空间聚合上下文,那么相邻单元之间的强相关性的原因导致在降维期间信息损失小得多。 鉴于这些信号应易于压缩,降维甚至可以促进更快的学习。
- 平衡网络的宽度和深度。 通过平衡每个阶段的过滤器数量和网络深度,可以达到网络的最佳性能。 增加网络的宽度和深度可以有助于提高网络质量。 然而,如果两者并行增加,则可以达到恒定计算量的最佳改进。 因此,计算预算应以平衡的方式分布在网络的深度和宽度之间。
Factorizing Convolutions with Large Filter Size
- GoogLeNet网络的许多原始收益来自于非常慷慨地使用降维。这可以被视为以计算有效的方式分解卷积的特殊情况。考虑例如1×1卷积层的情况,接着是3×3卷积层。 在视觉网络中,预计近旁激活的输出是高度相关的。因此,我们可以预期在聚合之前可以减少它们的激活,并且这应该导致类似的表达性本地表示。
- 在这里,我们探索在各种环境中分解卷积的其他方法,尤其是为了提高解决方案的计算效率。由于起始网络是完全卷积的,每个权重对应于每个激活的一个乘法。因此,计算成本的任何减少都会导致参数数量的减少。这意味着,通过适当的因子分解,我们可以得到更多的分离参数,从而得到更快的训练。此外,我们可以使用计算和内存节省来增加网络的过滤器大小,同时保持我们在一台计算机上训练每个模型副本的能力。
Utility of Auxiliary Classifiers
- GoogleNet引入了辅助分类器的概念来改善非常深的网络的融合。 最初的动机是将有用的梯度推向较低层,使它们立即有用,并通过在非常深的网络中消除消失梯度问题来改善训练期间的收敛。有趣的是,我们发现辅助分类器在训练早期并未导致改善收敛:在两个模型达到高精度之前,有或没有侧头的网络的训练进展看起来几乎相同。 接近训练结束时,带有辅助分支的网络开始超越没有任何辅助分支网络的准确性,并达到略高的平台。
- 另外[20]在网络的不同阶段使用了两个分支。 移除下部辅助支路对网络的最终质量没有任何不利影响。 与前一段中的早期观察结果一起,这意味着[20]假设这些分支有助于演化低级特征的假设很可能是错误的。 相反,我们认为辅助分类者充当正规分子。 如果侧分支是批量标准化的或具有丢失层,则网络的主分类器表现得更好,这一点得到了支持。 这也为批量标准化作为正则化器的猜想提供了弱支持证据。
Efficient Grid Size Reduction
- 传统上,卷积网络使用一些池化操作来减小特征映射的网格大小。 为了避免代表性瓶颈,在应用最大或平均池之前,扩展了网络过滤器的激活维度。
Inception-v2
Model Regularization via Label Smoothing
Conclusion
- 我们提供了几个设计原则来扩展卷积网络并在Inception体系结构的上下文中进行研究。与更简单,更单一的架构相比,该指导可以导致具有相对适中的计算成本的高性能视觉网络。我们的最高质量版本的Inception-v3在ILSVR 2012分类的单一作物评估中达到了21.2%,前1和5.6%的前5差错,创造了一种新的技术水平。与Ioffe等[7]中描述的网络相比,这可以通过相对适度(2.5×)的计算成本来实现。我们的解决方案使用的计算量远远低于基于密集网络的最佳公布结果:我们的模型优于He等[6]的结果 - 将前5(前1)误差减少25%(14%)相对,分别 - 计算成本低六倍,使用至少五倍的参数(估计)。我们的四个Inception-v3模型集合达到3.5%,多作物评估达到3.5%top5错误,这表示最佳发布结果减少了25%以上,几乎是ILSVRC 2014赢得GoogLeNet集合的错误的一半。
- 我们还证明了可以获得高质量的结果,接收场分辨率低至79×79。 这可能证明在检测相对较少的对象的系统中是有用的。 我们已经研究了如何在侧面神经网络中分解卷积和积极的尺寸减小可以导致具有相对低的计算成本的网络,同时保持高质量。 较低参数计数和附加正则化与批量标准化辅助分类和标签平滑的组合允许在相对适中的训练集上训练高质量网络。