深度学习论文精读（3）：MobileNets

最新推荐文章于 2023-05-23 22:19:34 发布

hwl19951007

最新推荐文章于 2023-05-23 22:19:34 发布

阅读量215

点赞数

分类专栏：计算机视觉论文精读

本文链接：https://blog.csdn.net/hwl19951007/article/details/84260824

版权

计算机视觉论文精读专栏收录该内容

8 篇文章 3 订阅

订阅专栏

深度学习论文精读（3）：MobileNets

论文地址：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

参考博文1：https://blog.csdn.net/wfei101/article/details/78310226

参考博文2：https://blog.csdn.net/t800ghb/article/details/78879612

文章目录

深度学习论文精读（3）：MobileNets

1 总体介绍

在移动端或嵌入式设备上使用CNN存在困难，对模型大小、计算力都有限制。
深度学习模型通常模型较大，计算力需求过高。难以部署在移动端或嵌入式设备上。
提出了使用depth-wise separable convolutions (深度可分离卷积结构) 构建的小权重DNN的精简构架。
在网络中设置两个超参数（width multiplier, resolution multiplier）来平衡准确率和模型大小。
起到的效果：
- 显著减小后的模型也能在ImageNet上取得很好的效果。

2 Depthwise Separable Convolution

Depthwise Separable Convolution的主旨是通过拆分standard convlution(标准卷积) 为depthwise convlution 和 pointwise convlution两个过程，以达到减少计算量的目的。其中：

输入： $D_F\cdot D_F\cdot M$ ，其中 $D_F$ 为输入尺寸( $H, W$ )， $M$ 为输入通道数(channel)。
输出： $D_F\cdot D_F\cdot N$ ，其中 $D_F$ 为输出尺寸( $H, W$ )， $N$ 为输出通道数(channel)。

2.1 标准卷积

1542616800474

卷积核： $N$ 个 $D_K\cdot D_K\cdot M$
输入： $D_F\cdot D_F\cdot M$ ，输出： $D_F\cdot D_F\cdot N$
计算量：
- FLOTS（参考链接，包括乘与加）： $(2\cdot D_K \cdot D_K \cdot M -1)\cdot N\cdot D_F\cdot D_F$
- 仅乘（论文中采用方式）： $D_K\cdot D_K\cdot M\cdot N \cdot D_F\cdot D_F$

2.2 Depthwise Separable Convolution

2.2.1 depthwise convlution

1542618349754

卷积核： $M$ 个 $D_K\cdot D_K\cdot 1$
输入： $D_F\cdot D_F\cdot M$ ，输出： $D_F\cdot D_F\cdot M$
计算量： $D_K\cdot D_K\cdot M\cdot D_F\cdot D_F$
直观理解：将输入的 $D_F\cdot D_F\cdot M$ 看做 $M$ 个 $D_F\cdot D_F$ 的feature-map，然后分别用 $M$ 个 $D_K\cdot D_K$ 的卷积核对其进行卷积。直观上即理解为将feature-map从通道上进行分解并分别标准卷积。

2.2.2 pointwise convlution

1542619364761

卷积核： $N$ 个 $1\cdot 1\cdot M$
输入： $D_F\cdot D_F\cdot M$ ，输出： $D_F\cdot D_F\cdot N$
计算量： $M\cdot N\cdot D_F\cdot D_F$
直观理解：将 $M$ 层feature-map以 $1\cdot 1$ 卷积的方式产生新的 $N$ 层feature-map。

2.3 计算量对比

Depthwise Separable Convolution的总计算量为： $D_K\cdot D_K\cdot M\cdot D_F\cdot D_F+M\cdot N\cdot D_F\cdot D_F$

Standard Convolution的计算量为： $D_K\cdot D_K\cdot M\cdot N \cdot D_F\cdot D_F$

则比值为： ${\Large\frac{D_K\cdot D_K\cdot M\cdot D_F\cdot D_F+M\cdot N\cdot D_F\cdot D_F}{D_K\cdot D_K\cdot M\cdot N \cdot D_F\cdot D_F} = \frac{1}{N}+\frac{1}{D_K^2}}$

以 $3\cdot 3$ 的卷积核为例，Depthwise Separable Convolution可以以微小的准确率损失为代价，将计算量减少到 ${\large \frac{1}{8}}$ 到 ${\large \frac{1}{9}}$ 之间。

3 Two Hyper-parameters

3.1超参数width multiplier： $\alpha$

用来对每一层的输入输出宽度进行缩减(channel)。比如该层原始input channel为 $M$ ，output channel为 $N$ 。添加width multiplier $\alpha$ 后，input channel 变为 $\alpha M$ ， output channel 变为 $\alpha N$ 。其中， $\alpha \in (0, 1]$ 。
添加width multiplier $\alpha$ 后，Depthwise Separable Convolution计算量减少为：

$D_K\cdot D_K\cdot \alpha M\cdot D_F\cdot D_F+\alpha M\cdot \alpha N\cdot D_F\cdot D_F$

3.2超参数resolution multiplier： $\rho$

用来调节输入图片的分辨率。如原始图片为 $H * W$ ，添加resolution multiplier $\rho$ 后，图片变为 $\rho H*\rho W$ 。
添加resolution multiplier $\rho$ 后，Depthwise Separable Convolution计算量减少为：

$D_K\cdot D_K\cdot \alpha M\cdot \rho D_F\cdot \rho D_F+\alpha M\cdot \alpha N\cdot \rho D_F\cdot \rho D_F$

要注意，调节了width multiplier： $\alpha$ 或resolution multiplier： $\rho$ 后，需要从头训练网络。

4 MobileNet结构

4.1 卷积层结构

采用Depthwise Separable Convolution。采用 $C o n v - B N - R e L U$ 。

1542632132565

4.2 总体结构

1542632201608

除第一个卷积层外，均使用Depthwise Separable Convolution。

4.3 资源分配情况

1542632827237

几乎所有的计算量、75%的参数，都在 $1 * 1$ 卷积层内。
由于 $1 * 1$ 卷积层直接使用高度优化的数学库来完成。因此Depthwise Separable Convolution不仅减少了计算量，也在计算层面上有巨大的优化。在以Caffe为例，如果要使用这些数学库，要首先使用im2col的方式来对数据进行重新排布，从而确保满足此类数学库的输入形式。