3.4.4 Inception 结构+(GoogleNet)

最新推荐文章于 2021-02-24 07:26:20 发布

开拖拉机的舒克。

最新推荐文章于 2021-02-24 07:26:20 发布

阅读量349

点赞数

分类专栏：深度学习CV 文章标签：卷积算法计算机视觉神经网络深度学习

本文链接：https://blog.csdn.net/qq_40066957/article/details/105960449

版权

深度学习CV 专栏收录该内容

20 篇文章 2 订阅

订阅专栏

3.4.4 Inception 结构

首先我们要说一下在Network in Network中引入的1 x 1卷积结构的相关作用，下面我们来看1*1卷积核的优点：

3.4.4.1MLP卷积(1 x 1卷积)

目的:提出了一种新的深度网络结构，称为“网络中的网络”（NIN），增强接受域内局部贴片的模型判别能力。
做法
- 对于传统线性卷积核：采用线性滤波器，然后采用非线性激活。
- 提出MLP卷积取代传统线性卷积核
作用或优点：
- 1x1的卷积核操作可以实现卷积核通道数的降维和升维，实现参数的减小化

3.4.4.2 1 x 1卷积介绍

从图中，看到1 x 1卷积的过程，那么这里先假设只有3个1x1Filter，那么最终结果还是56x56x3。但是每一个FIlter的三个参数的作用

看作是对三个通道进行了线性组合。

我们甚至可以把这几个FIlter可以看成就是一个简单的神经元结构，每个神经元参数数量与前面的通道数量相等。

通常在卷积之后会加入非线性激活函数，在这里之后加入激活函数，就可以理解成一个简单的MLP网络了。

3.4.4.3 通道数变化

那么对于1x1网络对通道数的变化，其实并不是最重要的特点，因为毕竟3 x 3,5 x 5都可以带来通道数的变化，

而1x1卷积的参数并不多，我们拿下面的例子来看。

保持通道数不变
提升通道数
减少通道数

对于单通道输入，1×1的卷积确实不能起到降维作用，但对于多通道输入，就不不同了。假设你有256个特征输入，256个特征输出，同时假设Inception层只执行3×3的卷积。这意味着总共要进行 256×256×3×3的卷积（589000次乘积累加（MAC）运算）。这可能超出了我们的计算预算，比方说，在Google服务器上花0.5毫秒运行该层。作为替代，我们决定减少需要卷积的特征的数量，比如减少到64（256/4）个。在这种情况下，我们首先进行256到64的1×1卷积，然后在所有Inception的分支上进行64次卷积，接着再使用一个64到256的1×1卷积。

256×64×1×1 = 16000（用64个1*1*256的卷积核形成64个通道）
64×64×3×3 = 36000（用64个3*3*64的卷积核形成64个通道（计算））
64×256×1×1 = 16000（用256个1*1*64的卷积核形成256个通道）

现在的计算量大约是70000(即16000+36000+16000)，相比之前的约600000，几乎减少了10倍。这就通过小卷积核实现了降维。

现在再考虑一个问题：为什么一定要用1×1卷积核，3×3不也可以吗？考虑[50,200,200]的矩阵输入，我们可以使用20个1×1的卷积核进行卷积，得到输出[20,200,200]。有人问，我用20个3×3的卷积核不是也能得到[20,200,200]的矩阵输出吗，为什么就使用1×1的卷积核？我们计算一下卷积参数就知道了，对于1×1的参数总数：20×200×200×（1×1），对于3×3的参数总数：20×200×200×（3×3），可以看出，使用1×1的参数总数仅为3×3的总数的九分之一！所以我们使用的是1×1卷积核。

3.4.4.4 Inception层

3.4.4.5 Inception v1-Pointwise Conv

Inception Module. 使用Inception Module的模块的GoogleNet不仅比Alex深，而且参数比AlexNet足足减少了12倍。

GoogleNet作者的初始想法是用多个不同类型的卷积核代替一个3x3的小卷积核(如左图)，好处是可以使提取出来的特征具有多样化，并且特征之间的co-relationship不会很大，最后用把feature map都concatenate起来使网络做得很宽，然后堆叠Inception Module将网络变深。但仅仅简单这么做会使一层的计算量爆炸式增长，如下图,854M 操作：

计算量主要来自于输入前的feature map的维度256，和1x1卷积核的输出维度:192。那可否先使用1x1卷积核将输入图片的feature map维度先降低，进行信息压缩，在使用3x3卷积核进行特征提取运算？线图就只有358M操作

参数量对比例子：
- 直接使用 3x3 的卷积核。256 维的输入直接经过一个 3×3×256 的卷积层，输出一个 256 维的 feature map ，那么参数量为：256×3×3×256 = 589,824 。
- 先经过 1x1 的卷积核，再经过 3x3 卷积核，最后经过一个 1x1 卷积核。 256 维的输入先经过一个 1×1×64 的卷积层，再经过一个 3x3x64 的卷积层，最后经过 1x1x256 的卷积层，则总参数量为：256×1×1×64 + 64×3×3×64 + 64×1×1×256 = 69,632 。

3.4.4.6 GoogleNet结构

其中包含了多个Inception结构。

特点：
- 1、Stem部分:论文指出Inception module要在网络中间使用的效果比较好，因此网络前半部分依旧使用传统的卷积层代替。
- 2、辅助函数(Axuiliary Function):从信息流动的角度看梯度消失，因为是梯度信息在BP过程中能量衰减，无法到达浅层区域，因此在中间开个口子，加个辅助损失函数直接为浅层。
- 3、Classifier部分:从VGGNet以及NIN的论文中可知，fc层具有大量层数，因此用average pooling替代fc,减少参数数量防止过拟合。在softmax前的fc之间加入dropout，p=0.7,进一步防止过拟合。
  - 后面的全连接层全部替换为简单的全局平均pooling

完整结构：

重点2、GoogLeNet网络结构中有3个LOSS单元，这样的网络设计是为了帮助网络的收敛。在中间层加入辅助计算的LOSS单元，目的是计算损失时让低层的特征也有很好的区分能力，从而让网络更好地被训练。在论文中，这两个辅助LOSS单元的计算被乘以0.3，然后和最后的LOSS相加作为最终的损失函数来训练网络。
重点3、将后面的全连接层全部替换为简单的全局平均pooling，在最后参数会变的更少。而在AlexNet中最后3层的全连接层参数差不多占总参数的90%，使用大网络在宽度和深度允许GoogleNet移除全连接层，但并不会影响到结果的精度，在ImageNet中实现93.3%的精度，而且要比VGG还要快。

keras代码实现：

def Conv2d_BN(x, nb_filter,kernel_size, padding='same',strides=(1,1),name=None):
    if name is not None:
        bn_name = name + '_bn'
        conv_name = name + '_conv'
    else:
        bn_name = None
        conv_name = None

    x = Conv2D(nb_filter,kernel_size,padding=padding,strides=strides,activation='relu',name=conv_name)(x)
    x = BatchNormalization(axis=3,name=bn_name)(x)
    return x

def Inception(x,nb_filter):
    branch1x1 = Conv2d_BN(x,nb_filter,(1,1), padding='same',strides=(1,1),name=None)

    branch3x3 = Conv2d_BN(x,nb_filter,(1,1), padding='same',strides=(1,1),name=None)
    branch3x3 = Conv2d_BN(branch3x3,nb_filter,(3,3), padding='same',strides=(1,1),name=None)

    branch5x5 = Conv2d_BN(x,nb_filter,(1,1), padding='same',strides=(1,1),name=None)
    branch5x5 = Conv2d_BN(branch5x5,nb_filter,(1,1), padding='same',strides=(1,1),name=None)

    branchpool = MaxPooling2D(pool_size=(3,3),strides=(1,1),padding='same')(x)
    branchpool = Conv2d_BN(branchpool,nb_filter,(1,1),padding='same',strides=(1,1),name=None)

    x = concatenate([branch1x1,branch3x3,branch5x5,branchpool],axis=3)

    return x

def GoogLeNet():
    inpt = Input(shape=(224,224,3))
    #padding = 'same'，填充为(步长-1）/2,还可以用ZeroPadding2D((3,3))
    x = Conv2d_BN(inpt,64,(7,7),strides=(2,2),padding='same')
    x = MaxPooling2D(pool_size=(3,3),strides=(2,2),padding='same')(x)
    x = Conv2d_BN(x,192,(3,3),strides=(1,1),padding='same')
    x = MaxPooling2D(pool_size=(3,3),strides=(2,2),padding='same')(x)
    x = Inception(x,64)#256
    x = Inception(x,120)#480
    x = MaxPooling2D(pool_size=(3,3),strides=(2,2),padding='same')(x)
    x = Inception(x,128)#512
    x = Inception(x,128)
    x = Inception(x,128)
    x = Inception(x,132)#528
    x = Inception(x,208)#832
    x = MaxPooling2D(pool_size=(3,3),strides=(2,2),padding='same')(x)
    x = Inception(x,208)
    x = Inception(x,256)#1024
    x = AveragePooling2D(pool_size=(7,7),strides=(7,7),padding='same')(x)
    x = Dropout(0.4)(x)
    x = Dense(1000,activation='relu')(x)
    x = Dense(1000,activation='softmax')(x)
    model = Model(inpt,x,name='inception')
    return model

3.4.4.7 Inception v2

Inception v2的论文，提出”Batch Normalization”思想:消除因conv而产生internal covariant shift, 保持数据在训练过程中的统计特性的一致性。Inception v2的结构是在卷积层与激活函数之间插入BN层:conv-bn-relu

3.4.4.8 Inception v3

问题：就算有了Pointwise Conv，由于 5x5 和 7x7 卷积核直接计算参数量还是非常大，训练时间还是比较长，我们还要再优化。
特点：Inception v3使用factorization的方法进一步对inception v2的参数数量进行优化和降低.
- Factorization：
  - 1、Factorization convolutions into smaller convolution.用小的卷积核替代大的卷积核，并使用1x1卷积核预处理进行空间降维。
  - 2、Spatial Factorization into Asymmetric（不对称） Convolution：使用receptive field等效的原理，进一步将nxn的卷积核裂化成1xn和nx1的卷积核串联形式或者并联形式，进一步减少计算量。
提出了通用的网络设计原则
- 1、在网络的浅层部分要尽量避免representation bottlenecks（瓶颈），即: information representation(在神经网络中指的是feature map和fc层的vector)不能在某一层内进行极端压缩，否则会造成信息丢失严重的现象。最好的降维办法是将信息缓慢降维，最终达到所需要的维度。
- 2、空间信息融合可以在低维流形上进行而没有较多的信息损失
  - 3x3卷积前先用1x1卷积进行降维，inception v1使用的方法。

3.4.4.9 Inception v4

Inception v4是将Inception module和residual module结合起来。引入了ResNet，使训练加速，性能提升。（后面会介绍ResNet）

3.4.4.9 Xception - Depthwise Separable Conv（深度可分离卷积）

Xception的目标是设计出易迁移、计算量小、能适应不同任务，且精度较高的模型。那么Xception与Inception-v3在结构上有什么差别呢？

1、InceptionV3：依据化繁为简的思想，把模块结构改造

2、依据depthwise separable convolution的思想，可以进一步把上图改造成下图.将每个channel上的空间关联分别使用一个相应的conv 3x3来单独处理呢。如此就得到了Separable conv。

什么是depthwise separable convolution（深度可分离卷积）呢？

1、对于112×112×64的输入做一次普通的3×3卷积，每个卷积核大小为3×3×64，也就是说，每一小步的卷积操作是同时在面上（3×3的面）和深度上（×64的深度）进行的
- 1、那如果把面上和深度上的卷积分离开来呢？这就是图3所要表达的操作。依旧以112×112×64的输入来作例子，先进入1×1卷积，每个卷积核大小为1×1×64，有没有发现，这样每一小步卷积其实相当于只在深度上（×64的深度）进行。
- 2、然后，假设1×1卷积的输出为112×112×7，我们把它分为7份，即每份是112×112×1，每份后面单独接一个3×3的卷积（如图3所示，画了7个3×3的框），此时每个卷积核为3×3×1，有没有发现，这样每一小步卷积其实相当于只在面上（3×3的面）进行。

Xception结构的表示

它就是由Inception v3直接演变而来，并且引入了Residual learning的结构

flow主要是用来不断下采样，减小空间维度；中间则是不断学习关联关系，

总结：最后，把这7个3×3的卷积的输出叠在一起就可以了。根据Xception论文的实验结果，Xception在精度上略低于Inception-v3，但在计算量和迁移性上都好于Inception-v3。

3.4.4.11 Inception Module 总结

inception v1被提出来;之后通过conv layer与conv layer之间的特性研究，提出BN的方法，形成Inception v2
Inception v3中，使用factorization方法，进一步减少参数总量降低网络的冗余度，从而提高网络性能。
inception v4：将Inception v3和residual module结合起来。
Xception：将1x1卷积极致发挥，分离cross-channel correlation和spatial correlation

开拖拉机的舒克。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
3.4.4 Inception 结构+(GoogleNet)

3.4.4 Inception 结构首先我们要说一下在Network in Network中引入的1 x 1卷积结构的相关作用，下面我们来看1*1卷积核的优点：3.4.4.1MLP卷积(1 x 1卷积) 目的:提出了一种新的深度网络结构，称为“网络中的网络”（NIN），增强接受域内局部贴片的模型判别能力。做法对于传统线性卷积核：采用线性滤波器，然后采用非线...
复制链接

扫一扫

专栏目录