Inception系列2_Rethinking the Inception Architecture for Computer Vision

Rethinking the Inception Architecture for Computer Vision

作者:Christian Szegedy,Vincent Vanhoucke, Sergey Ioffe

这篇论首先描述了一些通用的原则和优化方法,这些方法被证明对减小网络是有用的。

General Design Principles
1.避免representational bottlenecks。意思就是,数据传入网络到最后输出,这个过程中数据维度不能减小太快,避免extreme compression,变化应该gently。虽然信息不能只通过维度来衡量,还有相关性结果等因素,维度仅仅是信息内容的粗糙估计。
2.在一个网络内,高维度信息很容易被局部的处理。给神经网络增加激活可以disentangled features。网络训练更快。如下图:

这里写图片描述

3.空间聚合可以通过低维嵌入进行,而不会损失resentational power。比如,在使用更加大的卷积(比如,3*3)前,在空间聚合前,我们可以减少input representation的维度,而不会有严重的影响。原因可能是:如果输出是为了空间聚合,相邻单元之间强烈的相关性在降维时会使得信息的损失很小。考虑到这些信号很容易被压缩,维度的减少会促使更快的学习。
4.平衡网络的深度和宽度。通过平衡每个stage滤波器的个数和网络深度。平衡深度和宽度的计算资源。

Factorizing Convolutions with Large Filter Size
使用大的滤波器分解卷积。GoogLeNet的优点大多由于降维。这可以被看作为一种使用高效计算方式的特殊的卷积分解。比如:一个1*1的卷积层后边接着一个3*3的卷积层。从网络角度来看,相邻激活层的输出具有高度相关性。所以,我们想的是,这些激活的输出可以在聚合之前被减少,产生同样具有表达力的局部representations。
我们使用不同设置来分解卷积,特别是为了增加计算的效率。由于每个权重对应成衣一个激活,因此,计算的任何减少造成了参数的减少。这意味着,通过合适的分解,我们可以disentangled parameters,因此获得更快的训练速度。然后利用节省下来的计算和内存资源,来增加网络滤波器大小,保持我们计算机的训练能力。

Factorization into smaller convolutions
分解成更小的卷积。使用大滤波器(5 × 5 或者7 × 7)的卷积在计算上相对不划算。5 × 5的卷积比3 × 3的卷积多耗费25/9 = 2.78倍的计算。不过,5 × 5的滤波器可以在网络前边层可以捕获信号之间的依赖性,所以单纯减小滤波器的大小会造成损失。所以是否可以使用多层网络,用更少的参数来代替5 × 5的卷积,而是的输入和输出不变。如图一所示,我们看到,对于5 × 5的卷积,每个输出看起来像一个小的全连接网络,在5 × 5的卷积核上滑动。

这里写图片描述

我们使用一个两层的卷积架构来代替全连接层,第一层是一个3×3的卷积,第二个是在3×3的输出上使用一个全连接层。使用2个3×3的卷积代替5 × 5的卷积。
这里写图片描述
这里写图片描述

通过共享权重减少了参数。实验还证明了,两层3×3的卷积都使用relu效果比第一层使用线性激活,第二层使用relu效果要好。

Spatial Factorization into Asymmetric Convolutions
空间分解成非对称卷积。当然并不是所有大于3 × 3的都使用一系列的3 × 3来代替效果好。我们是否可以将他们分解为更小的呢,比如2×2?然而实验证明,使用非对称结构,比如n×1,效果比2×2好。如图3所示,使用一个3 × 1的卷积加一个1 × 3的卷积,等同于滑动一个具有同样大小感受野的两层网络。输入输出滤波器不变的话,资源耗费减小33%。但改为两层2 × 2的卷积仅仅减少11%。
这里写图片描述
随着n的增加,这种结构节省的计算显著增加。如下图:
这里写图片描述

但像这种分解,最好不要再网络前边层使用,在中等大小的grid-sizes上效果非常好。

Utility of Auxiliary Classifiers
额外分类器的使用。之前的一些文献表明,增加辅助的分类器会有好的效果。但本文发现,这并不会在训练早期提高收敛。在训练快结束时,才会表现好。如果辅助分类器增加BN或者有一个droupout层,那么主要分类器的表现就会更好。这支持BN的作用有点正则化的意思。结构如下图:
这里写图片描述

Efficient Grid Size Reduction
有效的特征图减小。有两种方法:先卷积后池化,先池化后卷积,如下图:
这里写图片描述

相对于第二种,第一种方法违反了原则1.第二种先进行1×1的卷积,然后在pooling,reduction不会太突兀。但是第二种计算又太昂贵。所以论文提出的结构如下:
这里写图片描述
Inception-v2
如下表是作者新提出的网络结构:
这里写图片描述

将一个7*7的卷积分解成3个3 × 3的卷积。像Efficient Grid Size Reduction描述的一样,3个传统的Inception输出35×35×288,被减少为17 × 17 × 768。接下来的5个Inception模块(图5)被减少为8 × 8 × 1280,如图10.接下来的2个Inception模块(8*8)结构如图6,输出为2048个通道。

Training Methodology
使用随机梯度下降法。优化器使用RMSProp,decay = 0.9,这里写图片描述 。学习率0.045。每两个周期下降率0.94。使用梯度裁剪,阈值2.0。
Performance on Lower Resolution Input
对于目标较小,低分辨率的图像,要提高准确率,一般做法是使用高分辨率receptive fields,但这回造成计算的增加。一种简单办法就是,如果输入图像是低分辨率,就减少前两层的步长,或者直接将第一个pooling层去掉。

Experimental Results and Comparisons
结果如表3。
这里写图片描述

Label Smoothing如原文。Factorized 7 × 7意思是将第一个7 × 7的卷积层分解为一系列3 × 3的卷积层。BN-auxiliary意思是附加全连接层也进行BN操作,不仅仅是卷积层,也就是Inception-v3。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值