（四十五）论文阅读 | 轻量级网络之MobileNetV1

最新推荐文章于 2023-06-24 21:18:29 发布

zhangts20

最新推荐文章于 2023-06-24 21:18:29 发布

阅读量330

点赞数

分类专栏：论文阅读文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/Skies_/article/details/112468161

版权

论文阅读专栏收录该内容

54 篇文章 33 订阅

订阅专栏

简介

在这里插入图片描述

图1：论文原文

本文将介绍轻量级网络， ${\rm MobileNets}$ 。其专为移动端和嵌入式端设计，主要特点是模型轻量、精度较高。最后，为了证明其有效性，作者将 ${\rm MobileNets}$ 应用于各种视觉模型中，均取得了优异的结果。论文原文

0. Abstract

在 ${\rm MobileNets}$ 中，论文提出一种基于深度可分离卷积的流线型结构，旨在设计一种用于嵌入式和移动端的网络。同时，使用两个全局超参数可以平衡网络的精度和速度，以满足不同实际环境下的需求。

论文贡献：（一）基于深度可分离卷积提出轻量级模型 ${\rm MobileNet}$ ；（二）引入宽度缩放系数和分辨率缩放系数以进一步缩小网络；（三） ${\rm MobileNet}$ 在各类视觉任务上表现优异。

1. Introduction

论文提出一种轻量级网络结构，以满足移动端和嵌入式端等的需求。

2. Prior Work

${\rm MobileNets}$ 基于深度可分离卷积，随后也被用于 ${\rm Inception}$ ；扁平化网络将三维卷积分解成多个一维卷积以减少参数量；分解网络引入分解卷积和拓扑连接； ${\rm Xception}$ 提出扩展深度可分离卷积，得到优于 ${\rm InceptionV3}$ 的结果； ${\rm SqueezeNet}$ 通过模块的方式设计一个小型网络。

获得小型网络的另一方法是缩小、分解或压缩预训练网络。基于乘积量化、哈希、剪枝、向量量化和哈夫曼编码的压缩方法；基于分解的方法；基于蒸馏。

3. MobileNet Architecture

3.1 Depthwise Separable Convolution

${\rm MobileNet}$ 基于深度可分离卷积而设计，其主要思路是将标准卷积分解成一个深度卷积和一个点卷积。在 ${\rm MobileNets}$ 中，深度卷积通过对输入特征图的每个通道执行单个卷积操作得到，点卷积将深度卷积的结果整合。
在这里插入图片描述

图2：Standard Convolution Filters

设标准卷积的输入特征图 $\bold F$ 的大小为 $D_F\times D_F\times M$ ，经由卷积得到的输出特征图 $\bold G$ 的大小为 $D_F\times D_F\times N$ 。则基于卷积核 $\bold K$ 的标准卷积的参数量是 $D_K\times D_K\times M\times N$ 。标准卷积的输出特征图计算： $\bold G_{k,l,n}=\sum_{i,j,m}\bold K_{i,j,m,n}\cdot\bold F_{k+i-1,l+j-1,m}\tag{1}$

这里， $(i, j)$ 表示遍历输入特征图， $m$ 表示输入特征图的通道数， $n$ 表示输出特征图的通道数， $(k, l)$ 表示遍历输出特征图。

标准卷积的计算量： $D_K\cdot D_K\cdot M\cdot N\cdot D_F\cdot D_F\tag{2}$

深度可分离卷积由两部分组成，首先是深度卷积：
在这里插入图片描述

图3：Depthwise Convolution Filters

深度卷积中，输入特征图的每个通道执行单个卷积操作： $\hat\bold G_{k,l,m}=\sum_{i,j,m}\hat\bold K_{i,j,m}\cdot\bold F_{k+i-1,l+j-1,m}\tag{3}$

其中， ${\hat \bold K}$ 表示深度卷积核，大小为 $D_K\times D_K\times M$ ，第 $m$ 个卷积核作用于输入特征图的第 $m$ 个通道得到输出特征图的第 $m$ 个通道。深度卷积的计算量为： $D_K\cdot D_K\cdot M\cdot D_F\cdot D_F\tag{4}$

深度卷积的输出特征图大小为 $D_F\times D_F\times M$ 。

点卷积的功能是将深度卷积的结果特征组合，首先将 $D_F\times D_F\times M$ 的特征图拆分成 $M$ 个 $1\times1$ 的特征图：
在这里插入图片描述

图4：Pointwise Convolution

然后使用 $N$ 个大小为 $1\times1\times M$ 的卷积核作用于 $M$ 个输入特征图，得到的输出特征图大小为 $D_F\times D_F\times N$ ，与标准卷积的输出相同。点卷积的计算量为： $M\cdot N\cdot D_F\cdot D_F\tag{5}$

因此，深度可分离卷积的总计算量为： $D_K\cdot D_K\cdot M\cdot D_F\cdot D_F+M\cdot N\cdot D_F\cdot D_F\tag{6}$

与标准卷积的计算量相对比：
$\frac{D_K\cdot D_K\cdot M\cdot D_F\cdot D_F+M\cdot N\cdot D_F\cdot D_F}{D_K\cdot D_K\cdot M\cdot N\cdot D_F\cdot D_F}=\frac{1}{N}+\frac{1}{D_K^2}\tag{7}$

3.2 Network Structure and Training

在这里插入图片描述

图5：MobileNet Body Architecture

由上图，除第一层用的普通卷积外，其他所有卷积层均使用深度可分离卷积（Conv dw / s2 + Conv / s1）。最后接一个全局平均池化层，全连接层以及用于分类的 ${\rm SoftMax}$ 层。

3.3 Width Multiplier: Thinner Models

为了进一步缩小 ${\rm MobileNet}$ ，论文引入一个宽度缩放系数 $\alpha$ 。给定层和宽度缩放系数 $\alpha$ ，输入通道数由 $M$ 变为 $\alpha M$ 、输出通道数由 $N$ 变为 $\alpha N$ 。则计算量变为： $D_K\cdot D_K\cdot \alpha M\cdot D_F\cdot D_F+\alpha M\cdot \alpha N\cdot D_F\cdot D_F\tag{7}$

3.4 Resolution Multiplier: Reduced Representation

此外，论文还引入第二个分辨率缩放系数 $\rho$ ，将其作用于输入图像。则此时的计算量变为： $D_K\cdot D_K\cdot \alpha M\cdot \rho D_F\cdot \rho D_F+\alpha M\cdot \alpha N\cdot \rho D_F\cdot \rho D_F\tag{8}$

在这里插入图片描述

图6：缩放系数的使用

4. Experiments

在这里插入图片描述

图7：MobileNet Width Multiplier

在这里插入图片描述

图8：MobileNet Resolution

在这里插入图片描述

图9：与其他模型的对比

在这里插入图片描述

图10：Large Scale Geolocalization

在这里插入图片描述

图11：Face Attributes

在这里插入图片描述

图12：Object Detection

在这里插入图片描述

图13：Face Embeddings

5. Conclusion

基于深度可分离卷积，作者设计了轻量级网络结构 ${\rm MobileNet}$ 。同时，为了进一步缩小网络，提出宽度缩放系数以及分辨率缩放系数，以满足不同实际场景下的需求。在实验部分，作者将 ${\rm MobileNet}$ 应用于各视觉任务上，均取得优异的结果。

参考

Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017.

完