论文 | Going deeper with convolutions(GoogleNet)

摘要

我们提出了一种代号为Inception的深度卷积神经网络架构,它负责在ImageNet大规模视觉识别挑战赛2014(ILSVRC 14)中为分类检测设定新的最新技术水平。这种架构的主要特点是提高了网络内部计算资源的利用率。这是通过精心设计实现的,该设计允许在保持计算预算不变的同时增加网络的深度和宽度。为了优化质量,建筑决策基于Hebbian原则和多尺度处理的直觉。在我们提交的ILSVRC14中使用的一个特定实例称为GoogleNet,这是一个22层的深层网络,其质量在分类和检测的背景下进行评估。

1、GoogleNet:22层神经网络,主要用于检测和分类任务

2、特点:提高网络内部计算资源利用率--允许在保持计算预算不变的同时增加网络的深度和宽度

1 引言

在过去的三年里,主要归功于深度学习(更具体地说是卷积网络)的进步[10],图像识别和对象检测的质量一直在以惊人的速度进步。一个令人鼓舞的消息是,大部分进展不仅仅是更强大的硬件,更大的数据集和更大的模型的结果,而主要是新思想,算法和改进的网络架构的结果。例如,ILSVRC 2014年竞赛中的顶级参赛者除了使用同一竞赛的分类数据集进行检测外,没有使用新的数据源。我们提交给ILSVRC 2014的GoogLeNet实际上使用的参数比两年前Krizhevsky等人[9]的获奖架构少12倍,同时更加准确。目标检测的最大收益并不来自于单独使用深度网络或更大的模型,而是来自于深度架构和经典计算机视觉的协同作用,例如Girshick等人的R-CNN算法[6]。

另一个值得注意的因素是,随着移动设备和嵌入式系统的持续发展,我们算法的效率-特别是它们的功率和内存使用-变得越来越重要。值得注意的是,导致本文中提出的深度架构设计的考虑因素包括这个因素,而不是完全固定在精度数字上。对于大多数实验,模型的设计是为了在推理时保持15亿次乘加的计算预算,因此它们最终不会成为纯粹的学术好奇心,而是可以以合理的成本投入真实的世界使用,即使是在大型数据集上。

背景(2014年以前):

1、深度学习的加入使得人们的研究着重点发生了转变

更强的硬件、更大的数据集和模型->新算法以及对网络架构的改进

2、移动设备(如智能手机、平板电脑)和嵌入式系统(如物联网设备、智能传感器)的使用越来越广泛。这些设备通常资源有限(电池容量有限、内存较小)。在这种背景下,如果算法消耗过多的功率或占用过多的内存,设备的续航时间会缩短,性能也会受限。因此,算法设计需要在保证功能的同时,尽量优化功率和内存使用。

本文通过设定合理的计算预算(如15亿次乘加操作),可以确保模型在实际设备上高效运行,从而具有实际应用价值,而不仅仅是一个理论上的概念。(简单来说就是设置一个最大值,每次运行不一定都能达到)

在本文中,我们将专注于一种用于计算机视觉的高效深度神经网络架构,代号为Inception,其名称来源于Lin等人[12]的网络论文中的网络,以及着名的“我们需要更深入”互联网模因[1]。在我们的案例中,“深度”这个词有两种不同的含义:首先,我们以“Inception模块”的形式引入了一个新的组织级别,同时也是更直接的增加网络深度的意义。总的来说,我们可以将Inception模型视为[12]的逻辑顶点,同时从Arora等人的理论工作中获得灵感和指导[2]。该架构的优势在ILSVRC 2014分类和检测挑战中得到了实验验证,其性能明显优于当前最先进的技术。

2 相关工作

从LeNet-5 [10]开始,卷积神经网络(CNN)通常具有标准结构-堆叠的卷积层(可选地后跟对比度归一化和maxpooling)后跟一个或多个全连接层。这种基本设计的变体在图像分类文献中很普遍,并且迄今为止在MNIST,CIFAR以及最值得注意的ImageNet分类挑战中取得了最好的结果。对于较大的数据集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值