【MobileNets】论文解读

最新推荐文章于 2023-06-24 21:18:29 发布

咖啡味儿的咖啡

最新推荐文章于 2023-06-24 21:18:29 发布

阅读量369

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/wangdongwei0/article/details/86440417

版权

深度学习专栏收录该内容

87 篇文章 8 订阅

订阅专栏

文章结构

Abstract

1、Introduction

2、Prior Work

3、MobileNet Architecture

3.1 Depthwise Separable Convolution

3.2 Network Structure and Training

3.3 Width Multilier: Thinner Models

3.4 Resolution Multiplier：Reduced Representation

4. Experements

4.1 Model Choice

4.2 Model Shrinking Hyperparameters

5. Conclusion

Abstract

MobileNets主要应用在移动端和嵌入式的图像处理设备，这类设备一般不能搭载大功率和大体积的显卡，所以需要一种更加小巧的网络来运行深度学习模型。MobileNets的主要思想是使用depth-wise separable convolutions去建立轻量化模型。

1、Introduction

首先指出卷积神经网络发展了这么多年虽然精度在不断提高，但是模型越来越复杂使其难以部署在机器人、无人驾驶等实时性要求高、算力不足的现实场景中。此论文提出了一个高效的网络结构和两个超参数，可以搭建很小的、低延时的模型以适用于嵌入式应用。

2、Prior Work

近些年，建立小巧的卷积神经网络模型越来越火了。大致的方法可以分为两类：压缩pretrained model；直接训练一个小的模型。MobileNet不止关注模型的小巧，还要兼顾低延时的特性。

3、MobileNet Architecture

3.1 Depthwise Separable Convolution

一般的网络结构如上图中（a）所示，每个卷积核的形状是Dk*Dk*M，一共有N个。其计算量是：Dk*Dk*M*N*Df*Df。

作者在分析该计算量的组成结构时发现，输入图像的长宽Df*Df和Kernal的尺寸Dk*Dk是无法改变的，减小模型的切入点只能从M或者N下手，解除尺寸和N、M的内在联系。所以作者就把该普通卷积变成了两个部分：depthwise convolutins和pointwise convolutions。首先针对输入特征图的M个channel，分别使用M个单通道的Kernal进行卷积，假设padding=same，那么得到的特征图尺寸不变，仍然是M个channel。但是这样得到的特征图每个channel之间的信息并没有流动起来，二维的卷积得到的特征图只是根据这个channel上的信息生成的。接下来使用Pointwise convolution融合各个channel间的特征，使用N个Pointwise convolution最终得到的特征图就是N个channel的。

所以最终的计算量就是：Dk*Dk*M*Df*Df + Df*Df*M*N

计算量的缩减：