gooLeNet:Going Deeper with Convolutions

摘要

该网络结构提出了一个Inception 模块,在2014ILSVRC的分类和检测比赛上取得了第一名。该结构的主要特点是提高了网络内部的计算资源的利用率。在保持计算预算不变的情况下,增加了网络的深度和宽度。该网络称为goolenet,共有22层。

1.介绍

在ILSVRC提交的GooleNet的参数只有alexNet的1/12.但准确率却大大提高。

2.相关工作

        对于大型的数据集,例如ImageNet,现在的趋势是增加网络的层数和网络的尺寸,并使用dropout来解决过拟合问题。由于最大池化层会导致空间信息的丢失,"same"  convolutional结构也已经成功的应用于定位 ,目标检测和行人姿态估计 。GooleNet使用一系列固定的不同大小的滤波器来处理多尺度,Inception结构中所有的滤波器是学习到的。此外,Inception层重复了很多次,在GoogLeNet模型中得到了一个22层的深度模型。 1*1卷积在googLeNet中作用时降维打破计算瓶颈,这使得我们可以加深,加宽网络,而不会重要性能的下降

3.动机和高层次考虑

   神经网络的性能提高最直接的方法就是 增加其规模:增加网络的深度或者网络的宽度,但是却带来了两个问题:

     1)参数过多,导致过拟合(尤其当标注样本过少时)

     2)计算资源使用的显著增加

解决这两个问题的方法是:全连接的结构转换为稀疏结构(即使是内部卷积) 
如果数据集的概率分布可以可以有大型的稀疏的深度神经网络表示,则优化网络的方法可以是逐层的分析层输出的相关性,对相关的输出做聚类操作.

4.结构细节

Inception架构形式的滤波器的尺寸仅限于1*1,3*3,5*5的滤波器大小,这个决定更多的是基于便易性而不是必要性。其输出滤波器组连接成单个输出向量形成了下一阶段的输入。另外在每个这样的阶段添加一个替代的并行池化。

由于高层会捕获更抽象的特征,其空间集中度预计会减少。这表明随着转移到更高层,3×3和5×5卷积的比例应该会增加。

对于Inception的naive module,在具有大量滤波器的卷积层之上,即使适量的5×5卷积也可能是非常昂贵,参数量巨大,再加上池化层,问题就更加明显。因此产生了Inception结构的第二种想法,在计算量明显增加的时候,明智的减少维度。使用1*1卷积来降维和使用线性修正单元。在不同的尺度上处理然后聚合,为的是下一阶段可以从不同尺度同时抽象特征。

5.分类比赛

1)独立训练了7个版本的相同的GoogLeNet模型,没有采取任何的外部数据,仅在采样方法和随机输入图片顺序不同

2)在测试阶段,采用了更积极的剪裁方法,首先将图像归一化为四个尺度,其中较短维度(高度或宽度)分别为256,288,320和352,取这些归一化的图像的左,中,右方块(在影像图片中,我们采用顶部,中心和底部方块)。对于每个方块,我们将采用4个角以及中心224×224裁剪图像以及方块尺寸归一化为224×224,以及它们的镜像版本。这导致每张图像会得到4×3×6×2 = 144的裁剪图像

3)softmax结果为平均多个剪裁图片和所有的分类器的结果。

6.检测比赛

ILSVRC检测任务是在200个类中产生图片的目标边界框。如果检测到的对象类别正确,并且边界框重叠50%,则认为检测的正确。无关的检测记为假阳性且被惩罚。正确率使用mAP(the mean average precision),为了更高的目标边界框召回率,我们使用了selective search 方法 和multibox改进了区域选择方法。 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值