Inception系列2_Rethinking the Inception Architecture for Computer Vision

最新推荐文章于 2022-09-30 16:16:48 发布

sunyao_123

最新推荐文章于 2022-09-30 16:16:48 发布

阅读量440

点赞数

分类专栏：论文笔记文章标签：论文笔记

本文链接：https://blog.csdn.net/sunyao_123/article/details/78839994

版权

论文笔记专栏收录该内容

40 篇文章 1 订阅

订阅专栏

Rethinking the Inception Architecture for Computer Vision

作者：Christian Szegedy，Vincent Vanhoucke， Sergey Ioffe

这篇论首先描述了一些通用的原则和优化方法，这些方法被证明对减小网络是有用的。

General Design Principles
1.避免representational bottlenecks。意思就是，数据传入网络到最后输出，这个过程中数据维度不能减小太快，避免extreme compression，变化应该gently。虽然信息不能只通过维度来衡量，还有相关性结果等因素，维度仅仅是信息内容的粗糙估计。
2.在一个网络内，高维度信息很容易被局部的处理。给神经网络增加激活可以disentangled features。网络训练更快。如下图：

这里写图片描述

3.空间聚合可以通过低维嵌入进行，而不会损失resentational power。比如，在使用更加大的卷积（比如，3*3）前，在空间聚合前，我们可以减少input representation的维度，而不会有严重的影响。原因可能是：如果输出是为了空间聚合，相邻单元之间强烈的相关性在降维时会使得信息的损失很小。考虑到这些信号很容易被压缩，维度的减少会促使更快的学习。
4.平衡网络的深度和宽度。通过平衡每个stage滤波器的个数和网络深度。平衡深度和宽度的计算资源。

Factorizing Convolutions with Large Filter Size
使用大的滤波器分解卷积。GoogLeNet的优点大多由于降维。这可以被看作为一种使用高效计算方式的特殊的卷积分解。比如：一个1*1的卷积层后边接着一个3*3的卷积层。从网络角度来看，相邻激活层的输出具有高度相关性。所以，我们想的是，这些激活的输出可以在聚合之前被减少，产生同样具有表达力的局部representations。
我们使用不同设置来分解卷积，特别是为了增加计算的效率。由于每个权重对应成衣一个激活，因此，计算的任何减少造成了参数的减少。这意味着，通过合适的分解，我们可以disentangled parameters，因此获得更快的训练速度。然后利用节省下来的计算和内存资源，来增加网络滤波器大小，保持我们计算机的训练能力。

Factorization into smaller convolutions
分解成更小的卷积。使用大滤波器(5 × 5 或者7 × 7)的卷积在计算上相对不划算。5 × 5的卷积比3 × 3的卷积多耗费25/9 = 2.78倍的计算。不过，5 × 5的滤波器可以在网络前边层可以捕获信号之间的依赖性，所以单纯减小滤波器的大小会造成损失。所以是否可以使用多层网络，用更少的参数来代替5 × 5的卷积，而是的输入和输出不变。如图一所示，我们看到，对于5 × 5的卷积，每个输出看起来像一个小的全连接网络，在5 × 5的卷积核上滑动。

这里写图片描述

我们使用一个两层的卷积架构来代替全连接层,第一层是一个3×3的卷积，第二个是在3×3的输出上使用一个全连接层。使用2个3×3的卷积代替5 × 5的卷积。
这里写图片描述

通过共享权重减少了参数。实验还证明了，两层3×3的卷积都使用relu效果比第一层使用线性激活，第二层使用relu效果要好。

Spatial Factorization into Asymmetric Convolutions
空间分解成非对称卷积。当然并不是所有大于3 × 3的都使用一系列的3 × 3来代替效果好。我们是否可以将他们分解为更小的呢，比如2×2？然而实验证明，使用非对称结构，比如n×1，效果比2×2好。如图3所示，使用一个3 × 1的卷积加一个1 × 3的卷积，等同于滑动一个具有同样大小感受野的两层网络。输入输出滤波器不变的话，资源耗费减小33%。但改为两层2 × 2的卷积仅仅减少11%。
这里写图片描述
随着n的增加，这种结构节省的计算显著增加。如下图：

但像这种分解，最好不要再网络前边层使用，在中等大小的grid-sizes上效果非常好。

Utility of Auxiliary Classifiers
额外分类器的使用。之前的一些文献表明，增加辅助的分类器会有好的效果。但本文发现，这并不会在训练早期提高收敛。在训练快结束时，才会表现好。如果辅助分类器增加BN或者有一个droupout层，那么主要分类器的表现就会更好。这支持BN的作用有点正则化的意思。结构如下图：
这里写图片描述

Efficient Grid Size Reduction
有效的特征图减小。有两种方法：先卷积后池化，先池化后卷积，如下图：
这里写图片描述

相对于第二种，第一种方法违反了原则1.第二种先进行1×1的卷积，然后在pooling，reduction不会太突兀。但是第二种计算又太昂贵。所以论文提出的结构如下：
这里写图片描述
Inception-v2
如下表是作者新提出的网络结构：

将一个7*7的卷积分解成3个3 × 3的卷积。像Efficient Grid Size Reduction描述的一样，3个传统的Inception输出35×35×288，被减少为17 × 17 × 768。接下来的5个Inception模块（图5）被减少为8 × 8 × 1280，如图10.接下来的2个Inception模块（8*8）结构如图6，输出为2048个通道。

Training Methodology
使用随机梯度下降法。优化器使用RMSProp，decay = 0.9，这里写图片描述。学习率0.045。每两个周期下降率0.94。使用梯度裁剪，阈值2.0。
Performance on Lower Resolution Input
对于目标较小，低分辨率的图像，要提高准确率，一般做法是使用高分辨率receptive fields，但这回造成计算的增加。一种简单办法就是，如果输入图像是低分辨率，就减少前两层的步长，或者直接将第一个pooling层去掉。

Experimental Results and Comparisons
结果如表3。
这里写图片描述

Label Smoothing如原文。Factorized 7 × 7意思是将第一个7 × 7的卷积层分解为一系列3 × 3的卷积层。BN-auxiliary意思是附加全连接层也进行BN操作，不仅仅是卷积层，也就是Inception-v3。

sunyao_123

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Inception系列2_Rethinking the Inception Architecture for Computer Vision

Rethinking the Inception Architecture for Computer Vision作者：Christian Szegedy，Vincent Vanhoucke， Sergey Ioffe这篇论首先描述了一些通用的原则和优化方法，这些方法被证明对减小网络是有用的。General Design Principles 1.避免representational bottle
复制链接

扫一扫