MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications_论文笔记_mobilenets:efficient convolutional neural networks-CSDN博客

本文链接：https://blog.csdn.net/haockl/article/details/105094294

一、论文摘要
1.现存深度学习网络结构的参数量以及计算单元过多且主要应用在PC端，需要耗费大量的计算资源以及内存。这限制它在移动端的应用。例如经典的网络结构Alexnet网络上有亿个参数量，这限制了其在手机端或者低算力设备上的应用。
2.提出了深度可分离卷积结构，减少了参数量，但精度下降很少。还采用了两个超参数a、b分别控制网络结构的通道收缩因子和输入图片的分辨率因子，进一步减少了计算和参数量。
3.训练的结果在移动端各类数据集训练，取得了很好地效果，如图1所示。

在这里插入图片描述图1 移动端设备训练Mobilenet结果
二、相关工作
对于构建高效的网络结构的方法主要有以下几种：
1.压缩预训练模型或者直接训练一个小网络
2.采用Inception类似的模块，在同层网络结构中采用多种大小卷积核 3.量化网络模型
4.知识蒸馏，大网络引导小网络训练
5.模型剪枝
三、具体想法
3.1 Depthwise Separable Convolution
具体做法：将每一层的标准卷积过程分为两部分：1.首先将每一层的特征通道用卷积核单独过滤，得到和原来通道数目相同的特征图。2.对得到的特征图进行点对点（11）的卷积

图2 深度可分离卷积
公式解释：

上图表示标准卷积的计算量过程DK 代表卷积核尺寸，M代表卷积之后的通道数，DF表示计算后的特征图输出。（注意计算单元为一个flop(ab)+c）
深度可分离卷积之后计算公式：
在这里插入图片描述
公式前半部分代表对单个通道过滤，DK代表卷积核尺寸大小，M代表被过滤通道的数目，DF过滤之后的特征图大小，后半分代表1*1卷积，N代表卷积之后的的通道数。
计算对比：

即采用深度可分离卷积之后，计算单元如上图所示。
3.2 整体结构
整体框架如下：
在这里插入图片描述
具体结构细节：左边为标准卷积过程，右边有深度可分离卷积之后结构

下图是网络结构的计算单元和参数在网络结构的分布情况

3.3.宽度收缩因子a

主要a作用在网络结构每一层的通道上面，a<1，主要设置为0.75、0.5、0.25，能够在保持合理准确率的基础上减少参数及计算量。
3.4 分辨率收缩因子
在这里插入图片描述
p主要集中在每一层的特征图上面，减少了特征图的大小，计算公式如上，二者对网络结构的影响如下：

在这里插入图片描述
四、实验分析
4.Imagenet数据集自身参数对比
Table4 标准卷积与深度可分离卷积结构在ImageNet数据集上面的准确率、参数、计算量对比
Table5 浅层与通道乘数0.75网络结构在ImageNet数据集上面的准确率、参数、计算量对比
Table6 不同通道乘数的深度可分离卷积结构在ImageNet数据集上面的准确率、参数、计算量对比
Table7 不同分辨率乘数的深度可分离卷积结构在ImageNet数据集上面的准确率、参数、计算量对比

在这里插入图片描述
下图分别表示深度可分离卷积网路结构的参数、计算量与ImageNet
准确率的关系。

4.2MobileNet与其他高效网络结构对比：

4.3 Mobilenet 嵌入地图、人脸、检测例子

五、总结
主要阐述了如何构建高效网络的想法，并进行了大量的实验，官方代码采用tensorflow框架，注意网络结构针对的是CPU，GPU推理并不work。