Going deeper with convolutions

Abstract

  • 我们提出了一个代号为Inception的深度卷积神经网络架构,该架构负责在2014年ImageNet大规模视觉识别挑战赛(ILSVRC14)中设置分类和检测的新技术水平。这种体系结构的主要特点是提高了网络内计算资源的利用率。这是通过精心设计的设计实现的,该设计允许增加网络的深度和宽度,同时保持计算预算不变。为了优化质量,架构决策基于Hebbian原则和多尺度处理的直觉。在我们提交的ILSVRC14中使用的一个特定的化身称为GoogLeNet,一个22层深的网络,其质量在分类和检测的背景下进行评估。

Introduction

  • 在过去的三年中,主要由于深度学习的进步,更具体的卷积网络[10],图像识别和物体检测的质量在一个戏剧性的空间中得到了发展。一个令人鼓舞的消息是,这些进展的大部分不仅仅是更强大的硬件,更大的数据集和更大的模型的结果,而且主要是新思想,算法和改进的网络架构的结果。例如,除了用于检测目的的同一竞争的分类数据集之外,没有使用新数据源,例如ILSVRC 2014竞赛中的顶级条目。物体检测的最大收益并非来自单独使用深度网络或更大的模型,而是来自深层架构和经典计算机视觉的协同作用,如Girshick等人的R-CNN算法[6]。
  • 另一个值得注意的因素是,随着移动和嵌入式计算的不断发展,我们算法的效率 - 尤其是它们的功耗和内存使用 - 变得越来越重要。值得注意的是,本文中提出的导致深层结构设计的考虑因素包括这个因素,而不是对精度数字进行纯粹的固定。对于大多数实验而言,这些模型的设计目的是在推理时间内保持15亿次乘法的计算预算,这样它们最终不会成为纯粹的学术好奇心,但可以用于现实世界的使用,甚至 在大型数据集上,以合理的成本。
  • 在本文中,我们将关注一个有效的计算机视觉深度神经网络体系结构,代号为Inception,它的名称来源于Lin等人[12]与着名的“我们需要更深入”的网络论文。 互联网模因[1]。 在我们的例子中,“deep”这个词用于两个不同的含义:首先,我们以“初始模块”的形式引入一个新的组织层次,并且更直接地意义上是增加网络 深度。 一般来说,人们可以将初始模型视为[12]的逻辑顶点,同时从Arora等[2]的理论工作中获取灵感和指导。 该体系结构的优势在实验上验证了ILSVRC 2014的分类和检测挑战,在该挑战中,它显着优于当前的技术水平。

Related Work

  • 从LeNet-5 开始,卷积神经网络(CNN)通常具有标准结构 - 堆叠卷积层(可选地随后是对比度归一化和最大化),之后是一个或多个完全连接的层。 这种基本设计的变体在图像分类文献中很普遍,并且迄今为止在MNIST,CIFAR以及最着名的ImageNet分类挑战上取得了最好的结果。对于像Imagenet这样的大型数据集,最近的趋势是增加层数和层大小,同时使用dropout来解决过度配置问题。
  • 尽管担心最大池化层导致精确空间信息的丢失,但是同样的卷积网络架构也已经成功地用于定位,对象检测和人体姿态估计。网络中网络是Lin等人提出的方法。 [12]为了增加神经网络的代表能力。 当应用于卷积层时,该方法可以被视为额外的1×1卷积层,其后通常是整流线性激活[9]。 这使其可以轻松集成到当前的CNN流水线中。 我们在架构中大量使用这种方法。 然而,在我们的设置中,1×1卷积具有双重目的:最关键的是,它们主要用作降维模块以消除计算瓶颈,否则会限制我们网络的大小。 这不仅可以增加深度,还可以增加网络的宽度,而不会显着降低性能。
  • 目前用于物体检测的主要方法是由Girshick等人提出的具有卷积神经网络的区域(R-CNN)。R-CNN将整体检测问题分解为两个子问题:首先利用低级别线索(如颜色和超像素一致性)以类别无关的方式提出潜在的对象提议,然后使用CNN分类器识别这些位置的对象类别。 这种两阶段方法利用具有低级线索的边界框分割的准确性,以及最先进的CNN的高度强大的分类能力。 我们在检测提交中采用了类似的管道,但是已经探索了两个阶段的增强,例如用于更高对象边界框召回的多框预测,以及用于更好地分类边界框提议的集合方法。

Motivation and High Level Considerations

  • 提高深度神经网络性能的最直接方法是增加它们的大小。 这包括增加深度 - 网络级别数量及其宽度:每个级别的单元数量。 这是一种简单安全的培训高质量模型的方法,特别是考虑到大量标记的训练数据的可用性。 然而,这个简单的解决方案有两个主要缺点。较大的尺寸通常意味着更多的参数,这使得扩大的网络更容易过度配置,尤其是如果训练集中的标记示例的数量有限的话。这可能成为一个主要的瓶颈,因为创建高质量的训练集可能会非常棘手和昂贵。
  • 统一增加网络大小的另一个缺点是计算资源的使用显着增加。 例如,在深度视觉网络中,如果链接两个卷积层,则其滤波器数量的任何均匀增加导致计算的二次增加。 如果无法有效地使用增加的容量(例如,如果大多数权重最终接近于零),则浪费了大量计算。 由于在实践中计算预算总是有限的,因此即使主要目标是提高结果的质量,计算资源的有效分布也优于不加区分地增加大小。
  • 解决这两个问题的根本方法是最终从完全连接到稀疏连接的架构,甚至在卷积内部。 除了模仿生物系统之外,由于Arora等人的开创性工作,这也具有更为理论基础的优势。 他们的主要结果表明,如果数据集的概率分布可以通过大的,非常稀疏的深度神经网络来表示,则可以通过分析最后一层激活的相关统计来逐层构建最优网络拓扑。 聚类具有高度相关输出的神经元。 尽管严格的数学证明需要非常强的条件,但这一陈述与众所周知的Hebbian原理 - 共同组合在一起的神经元 - 共振的事实表明,即使在不太严格的条件下,实际上也可以应用基本思想。
  • 在缺点方面,当涉及非均匀稀疏数据结构的数值计算时,今天的计算基础设施非常缺乏。即使算术运算的数量减少了100倍,查找和高速缓存未命中的开销也占据主导地位,以至于切换到稀疏矩阵将无法获得回报。通过使用稳定改进,高度调整的数值库,可以进一步扩大差距,允许极快的密集矩阵乘法,利用底层CPU或GPU硬件的微小细节[16,9]。此外,非均匀稀疏模型需要更复杂的工程和计算基础设施。大多数当前面向视觉的机器学习系统仅仅通过使用卷积来利用空间域中的稀疏性。但是,卷积实现为早期层中补丁的密集连接集合。 ConvNets传统上在特征维度中使用随机和稀疏连接表,因为[11]为了打破对称性并改善学习,趋势改变回与[9]的完全连接,以便更好地优化并行计算。结构的均匀性和大量过滤器以及更大的批量大小允许利用有效的密集计算。

Architectural Details

  • 初始架构的主要思想是基于如何发现卷积视觉网络中的最佳局部稀疏结构可以通过容易获得的密集组件进行近似和覆盖。 请注意,假设转换不变性意味着我们的网络将由卷积构建块构建。 我们所需要的只是找到最佳的局部结构并重复进行。Arora建议采用逐层构造,其中人们应分析最后一层的相关统计数据,并将它们聚类成具有高相关性的单元组。 这些簇形成下一层的单元,并连接到前一层中的单元。 我们假设来自较早层的每个单元对应于输入图像的某个区域,并且这些单元被分组为滤波器组。在较低层(靠近输入的那些层)中,相关单元将集中在局部区域中。这意味着,我们最终会将大量聚类集中在一个区域中,并且可以在下一层中通过一层1×1卷积覆盖它们,如[12]中所述。 然而,人们还可以预期会有更少数量的空间扩散的聚类,可以通过更大的补丁上的卷积来覆盖,并且在越来越大的区域上将有越来越少的补丁。
  • 这种体系结构的一个主要好处是,它允许在每个阶段显著增加单元的数量,而不会在计算复杂性上出现不受控制的爆炸。普遍使用的降维允许将最后一阶段的大量输入滤波器屏蔽到下一层,首先降低它们的尺寸,然后用一个大的补丁将它们卷起。这种设计的另一个实际有用的方面是,它符合直觉,即视觉信息应在不同的尺度上进行处理,然后进行聚合,以便下一阶段可以同时从不同的尺度上提取特征。

GoogLeNet

  • 考虑到网络的相对较大的深度,以有效的方式将梯度传播回所有层的能力是一个问题。 一个有趣的见解是,相对较浅的网络在此任务上的强大表现表明,网络中间层产生的特征应该是非常有区别的。 通过添加连接到这些中间层的辅助分类器,我们期望在分类器的较低阶段中鼓励区分,增加传播回来的梯度信号,并提供额外的正则化。 这些分类器采用较小的卷积网络形式,置于初始(4a)和(4d)模块的输出之上。 在培训期间,他们的损失会加到折扣权重的网络总损失中(辅助分类的损失加权为0.3)。 在推理时,这些辅助网络被丢弃。

Training Methodology

  • 我们的网络使用DistBelief分布式机器学习系统进行训练,使用适量的模型和数据并行。 虽然我们仅使用基于CPU的实现,但粗略的估计表明GoogLeNet网络可以在一周内使用少量高端GPU进行融合训练,主要限制是内存使用。 我们的训练使用异步随机梯度下降与0.9动量,固定学习率计划(每8个时期将学习率降低4%)。 Polyak平均[13]用于创建推理时使用的最终模型。

Conclusions

  • 我们的结果似乎产生了一个确凿的证据,即通过容易获得的密集构建块来近似预期的最佳稀疏结构是改善计算机视觉的神经网络的可行方法。 与较浅和较宽的网络相比,这种方法的主要优点是在适度增加计算要求时获得了显着的质量增益。 另请注意,尽管既没有利用上下文也没有执行边界框回归,但我们的检测工作具有竞争力,这一事实进一步证明了Inception架构的优势。 尽管预期类似的深度和宽度的网络可以实现类似的结果质量,但我们的方法可以得出确凿的证据,表明迁移到更稀疏的体系结构是一般可行且有用的想法。 这表明未来有望在[2]的基础上以自动化方式创建更稀疏和更复杂的结构。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值