MobileNetV2： Inverted Residuals and Linear Bottlenecks论文解读

最新推荐文章于 2024-07-24 22:08:14 发布

咆哮的阿杰

最新推荐文章于 2024-07-24 22:08:14 发布

阅读量1.7k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_34914551/article/details/86442560

版权

深度学习专栏收录该内容

61 篇文章 22 订阅

订阅专栏

摘要

主要贡献

摘要

作者提出了一种基于倒置残差块（姑且这么翻译吧，inverted residual block），把mobileNetV1改了改，提高了移动端网络的state of the art 表现。作者探讨了这种倒置残差块的作用，使用了expansion ratio；还发现RELU对残差块的不利影响。最后和mobileNetV1一样，在图像分类，分割，检测领域都和一些网络进行了对比。

主要贡献

提出了一种新颖的层结构： inverted residual block with linear bottleneck，这里lineal指的是送入经过的第一个卷积层是没有激活函数的；inverted指的是和传统的残差块相比，输入经过的第一个卷积层得到tensor的channel是输入channels的t倍，t就是expansion ratio。

先导内容，预备工作（preliminaries,intuition）

作者先是又提了一下深度分离卷积（depthwise convolution），这在mobilenetV1中已经讲的很清楚了。关于mobileNetV1，请见我的另一篇博文：MobileNetV1
之后作者又谈了一下为啥他们的这种设计在小模型中表现好的依据，这部分内容我觉得很玄学，提到了manifold of interest，以及阐述了为啥RELU在残差块的第一个卷积层有不利作用。
Figure1是证明ReLU对不同维度输入的信息丢失对比。图表下面的文字介绍了具体的操作过程，显然，当把原始输入维度增加到15或30后再作为ReLU的输入，输出恢复到原始维度后基本不会丢失太多的输入信息；相比之下如果原始输入维度只增加到2或3后再作为ReLU的输入，输出恢复到原始维度后信息丢失较多。因此在MobileNet V2中，执行降维的卷积层后面不会接类似ReLU这样的非线性激活层，也就是linear bottleneck的含义。(this paragraph cites from here)
再往后，就到了重头戏，解释这个inverted结构的设计。其实很简单，回想下一般的residual block，先把输入用1x1的卷积核降维（通道数降低），然后在卷积，再用1x1的卷积核把通道数提上去，再加上最开始的输入。这里的inverted，就是指先用1x1的核增加通道维数，这一层叫做expansion layer ，有一个超参数expansion ratio t，假设输入通道数为k，expansion layer的输出就是t*k，并且这一层没有RELU。作者认为这样做实现了一个非线性变换。同时也指出这操作要耗费更多内存。

这是一个bottleneck的结构。

模型结构

注意第一个卷积层是传统卷积，并且分别对stride为1和2，构造了两种瓶颈层。从这个结构图中，我们可以看出，这个网络的channels比V1普遍低很多，这也是即便V2更深，参数却比V1小的原因，因为参数集中在pointwise conv部分，而这一部分的参数量取决于channels。

stride为1的结构使用了shortcut，因为输出的尺寸和输入一样，当然就可以相加。

一些细节：

使用Relu6作为激活函数，卷积核全是3x3的，使用dropout和batch normlization。
expansion ratio为5-10 的结果是相近的，小网络用小的ratio效果较好，大网络用大的ratio效果较好。这里的小和大，是由于设置不同的width mutilplier 和 resolution multiplier 导致的。这两个超参数在mobileNetV1中有介绍。
最后一层不使用宽度因子。