深度学习论文精读（4）：MobileNetV2

最新推荐文章于 2024-07-26 09:00:48 发布

hwl19951007

最新推荐文章于 2024-07-26 09:00:48 发布

阅读量418

点赞数

分类专栏：计算机视觉论文精读

本文链接：https://blog.csdn.net/hwl19951007/article/details/84661927

版权

计算机视觉论文精读专栏收录该内容

8 篇文章 3 订阅

订阅专栏

深度学习论文精读（4）：MobileNetV2

论文地址：MobileNetV2: Inverted Residuals and Linear Bottlenecks

参考博文1：https://zhuanlan.zhihu.com/p/33169767

参考博文2：https://zhuanlan.zhihu.com/p/33075914

参考博文3：https://blog.csdn.net/u014380165/article/details/79200958

文章目录

深度学习论文精读（4）：MobileNetV2

1 总体介绍

在移动端或嵌入式设备上使用CNN存在困难，对模型大小、计算力都有限制。
深度学习模型通常模型较大，计算力需求过高。难以部署在移动端或嵌入式设备上。
提出了使用depth-wise separable convolutions (深度可分离卷积结构) 构建的小权重DNN的精简构架。在MobileNetV1中介绍过了。
提出了linear bottleneck和inverted residual进行改进。
起到的效果：
- 相似的模型大小，比MobileNetV1效果更好。

2 linear bottleneck

对于RelU输出结果为非0的情况，Relu只是一个简单的线性变换。
RelU在 “input manifold处于输入空间的低维子空间” 的前提下，可以保留input manifold的信息。
即：ReLU这样的非线性激活不能在所有情况下保留输入信息。
论文中对于ReLU在各个维度下信息的保留情况作了下图的说明。可以看到高维情况下能更好的保留信息。
理解：对原始input先升维，再恢复到原始图片。升维大时（最右边两张图片），恢复的图片效果越好。
内在联系：ReLU会使feature中的负值置0，且这一过程是不可逆的。因此当维度较小时，进行ReLU会损失较多的feature，降低网络对信息的利用率。而先进行升维之后再进行ReLU，则可有有效地减少信息的丢失。

1543493178330

3 inverted residual

3.1卷积结构演变

1543495712635

（a）标准3*3卷积
（b）Depthwise Separable Convolution
（c）在b的基础上增加了一层bottleneck层（虚线表示没有ReLU）
（d）Inverted residuals结构
实际上，c和d可以认为是相同的。（若干个c相连，与若干个d相连，除了两头的结构有点区别，中间部分都一样）

3.2 inverted residual block

1543496157736

ResNet中的residual block与本文中的inverted residual block的对比：
- （a）中residual block进行的卷积流程为11降维，3 * 3卷积，11升维。
- （b）中inverted residual block进行的卷积流程为11升维，3 * 3 Depthwise Convolution，11降维（通道数过少不再进行ReLU激活）。
直观的形象上来看，ResNet 的微结构是沙漏形，而 MobileNet V2 则是纺锤形，刚好相反。
文中这么做的理由正如前一节的linear bottleneck提到的，低维情况下进行非线性激活会丢失过多信息，因此，将提取信息的卷积放在升维之后的空间中进行，并在低维时放弃非线性激活。
inverted residual block具体结构
h,w,k：高，宽，通道。s：步长。t：升维系数。

1543497149029

3.3 ReLU6

ReLU6就是普通的ReLU但是限制最大输出值为6（对输出值做clip），这是为了在移动端设备float16的低精度的时候，也能有很好的数值分辨率，如果对ReLU的激活范围不加限制，输出范围为0到正无穷，如果激活值非常大，分布在一个很大的范围内，则低精度的float16无法很好地精确描述如此大范围的数值，带来精度损失。