从Inception到Xception(含网络模型pytorch代码解析)

最新推荐文章于 2024-07-18 11:17:18 发布

Enjoy_endless

最新推荐文章于 2024-07-18 11:17:18 发布

阅读量6.5k

点赞数 8

分类专栏： Deep learning

本文链接：https://blog.csdn.net/Enjoy_endless/article/details/105029985

版权

Deep learning 专栏收录该内容

45 篇文章 5 订阅

订阅专栏

最近相关项目用到了网络模型inceptionv3及xception，并取得了不错的效果，于是相关知识整理如下(来源于网络)，并附自己对于相应网络模型的pytorch代码解析。

总共包含4个部分：inception、xception、各自代码核心结构及流程解析。

1.inception

参考：https://baijiahao.baidu.com/s?id=1601882944953788623&wfr=spider&for=pc
在这里插入图片描述

2. Xception：

参考：https://blog.csdn.net/MOU_IT/article/details/84945512
在这里插入图片描述
两个维度：跨通道、跨空间

深度可分离卷积：先逐通道处理，即处理每一个空间，然后是通道的融合。
11处理通道间融合，33或5*5处理每一个空间的融合。

在Inception v3的基础上，把Inception模块替换为深度可分离卷积，然后结合ResNet的跳跃连接，提出了Xception。
在这里插入图片描述
Inception 最初提出的版本，其核心思想就是使用多尺寸卷积核去观察输入数据。举个例子，我们看某个景象由于远近不同，同一个物体的大小也会有所不同，那么不同尺度的卷积核观察的特征就会有这样的效果。

于是我们的网络就变胖了，增加了网络的宽度，同时也提高了对于不同尺度的适应程度。

Pointwise Conv
但是我们的网络变胖了的同时，计算量也变大了，所以我们就要想办法减少参数量来减少计算量，于是在 Inception v1 中的最终版本加上了 1x1 卷积核。使用 1x1 卷积核对输入的特征图进行降维处理，这样就会极大地减少参数量，从而减少计算。

举个例子，输入数据的维度是 256 维，经过 1x1 卷积之后，我们输出的维度是 64 维，参数量是原来的 1/4 。这就是 Pointwise Convolution，俗称叫做 1x1 卷积，简写为 PW，主要用于数据降维，减少参数量。也有使用 PW 做升维的，在 MobileNet v2 中就使用 PW 将 3 个特征图变成 6 个特征图，丰富输入数据的特征。

就算有了 PW ，由于 5x5 和 7x7 卷积核直接计算参数量还是非常大，训练时间还是比较长，我们还要再优化。于是就想出了使用多个小卷积核替代大卷积核的方法，这就是 Inception v3。
使用两个 3x3 卷积核来代替 5x5 卷积，效果上差不多，但参数量减少很多，达到了优化的目的。不仅参数量少，层数也多了，深度也变深了。
除了规整的的正方形，我们还有分解版本的 3x3 = 3x1 + 1x3，这个效果在深度较深的情况下比规整的卷积核更好。

我们假设输入 256 维，输出 512 维，计算一下参数量：
5x5 卷积核
256∗5∗5∗512=3276800256∗5∗5∗512=3276800
两个 3x3 卷积核
256∗3∗3∗256+256∗3∗3∗512=1769472

输出维度，就是表示此层所用到的卷积核的个数，所有的卷积核都要作用在每一个输入维度上，所以是25655*512.

Bottleneck
我们发现就算用了上面的结构和方法，我们的参数量还是很大，于是乎我们结合上面的方法创造出了 Bottleneck 的结构降低参数量。Bottleneck 三步走是先 PW 对数据进行降维，再进行常规卷积核的卷积，最后 PW 对数据进行升维。我们举个例子，方便我们了解：
在这里插入图片描述
根据上图，我们来做个对比计算，假设输入 feature map 的维度为 256 维，要求输出维度也是 256 维。有以下两种操作：

直接使用 3x3 的卷积核。256 维的输入直接经过一个 3×3×256 的卷积层，输出一个 256 维的 feature map ，那么参数量为：256×3×3×256 = 589,824 。

先经过 1x1 的卷积核，再经过 3x3 卷积核，最后经过一个 1x1 卷积核。 256 维的输入先经过一个 1×1×64 的卷积层，再经过一个 3x3x64 的卷积层，最后经过 1x1x256 的卷积层，则总参数量为：256×1×1×64 + 64×3×3×64 + 64×1×1×256 = 69,632 。

经过两种方式的对比，我们可以很明显的看到后者的参数量远小于前者的。Bottleneck 的核心思想还是利用多个小卷积核替代一个大卷积核，利用 1x1 卷积核替代大的卷积核的一部分工作。

Xception大致的步骤是这样的：

分别按不同通道进行一次卷积（生成输入通道数张 Feature Maps）- DW

再将这些 Feature Maps 一起进行第二次卷积 - PW

多个不同尺寸的卷积核，提高对不同尺度特征的适应能力。
PW 卷积，降维或升维的同时，提高网络的表达能力。

多个小尺寸卷积核替代大卷积核，加深网络的同时减少参数量。

精巧的 Bottleneck 结构，大大减少网络参数量。

精巧的 Depthwise Separable Conv 设计，再度减少参数量。

3.Pytorch中inceptionv3的网络代码结构：

在这里插入图片描述
第一层为基本卷积结构，第二层和第四层为inception结构，第三层为辅组分类器；

提取特征及最后的逻辑处理，注意这里如何使用辅组分类器，需要返回2个结果，分别是分类器及辅组分类器的结果。辅组分类器就是一个简单的二层卷积分类器，在后期主要是为了防止梯度消失。
在这里插入图片描述
基本的卷积结构，除了包含卷积，还包含批标准化和激活函数relu。

基本的inception模块如上，有33堆叠的，也有77分解为17堆叠71的，最后是一个最大池化层，最后将三个结果cat在一起进行返回。

4.Xception

如下的提取特征层及最后的逻辑输出层；
Conv1及conv2为基本的卷积层；中间包括12层的block层，最后的conv3及conv4即为其引出的核心：可分离卷积层。
在这里插入图片描述

先来看一下堆叠的block模块：

由基本的rep堆叠操作来处理，以及是否处理跳过连接skip，skip就是一层卷积：

最后两者直接相加即可；来看一下堆叠的rep操作：

同样是一些可分离卷积的堆叠；最后来看一下可分离卷积：
在这里插入图片描述
可分离卷积包含两个部分，一个是基本的33卷积(传入的kernel_size=3)，这是相当于同一通道上空间上的卷积，通过Conv2d中的groups=in_channels来控制逐通道卷积；另一个就是pointwise为11卷积，这里是否执行维度的升降，主要是靠输入输出的channel决定，相当于是不同通道维度上的处理。
在这里插入图片描述
这里对于网络的解析，也只是一个基本的流程及其核心结构处理的梳理及理解，更详细完整的代码参加原pytorch代码。

Enjoy_endless

关注

8
点赞
踩
66

收藏

觉得还不错? 一键收藏
11
评论
从Inception到Xception(含网络模型pytorch代码解析)

最近相关项目用到了网络模型inceptionv3及xception，并取得了不错的效果，于是相关知识整理如下(来源于网络)，并附自己对于相应网络模型的pytorch代码解析。总共包含4个部分：inception、xception、各自代码核心结构及流程解析。1.inception参考：https://baijiahao.baidu.com/s?id=1601882944953788623&a...
复制链接

扫一扫

专栏目录