<
Going Deeper with Convolutions >
Christian Szegedy
1
, Wei Liu
2
, Yangqing Jia
摘要
本文提出了一个代号为Inception的深度卷积神经网络架构,这种架构的主要特点是提高了网络内部计算资源的利用率。通过精心设计,增加了网络的深度和宽度,同时保持计算预算不变。 GoogLeNet是Inception的一个具体实现,使用它在分类和检测中进行了评估。
1. 介绍
过去几年,深度卷积网络的分类和检测能力提高了很多,主要是因为
新想法,算法和改进的网络架构导致的结果。GoogLeNet比AlexNet参数少12倍,但是精确度更高。在物体检测方面,效果提升最大的不是单纯来自于更大更大深度网络的应用,而是来自深层架构和经典计算机视觉的协同作用,如R-CNN。
在我们的例子中,“深”这个词有两个不同的含义:首先,就我们引入组织的新层次而言,它是以“Inception”模块的形式出现的,它本身不止一层,这更直接的意义上的增加的网络深度。其二,网络的总层数很深。
2. Related Work
很多网络都是由LeNet5和AlexNet变形发展而来。对于较大的数据集,如Imagenet,最近的趋势是增加层数[12]和每层的大小,同时使用dropout来解决过拟合问题。尽管担心max-pooling层会导致精确的空间信息丢失,但与AlexNet相同的卷积网络架构也已经成功地用于定位,目标检测和人类姿势估计。
Inception架构中的所有滤波器都是学习的。 此外,Inception重复多次,导致了22层深的模型。在NIN中,额外的1×1卷积层被添加到网络中,增加其深度,增强函数的表达能力。在本论文中大量使用了1x1的卷积核。在这里1×1卷积有双重目的:1、最多关键一个的是,它们主要用作降维模块来消除计算瓶颈,否则会限制我们网络的规模。使用1x1卷积核之后使得不仅仅只是增加了深度,而且还增加了我们网络的宽度而没有显着的性能损失。