前言:
本文为MobileNet的简单介绍,尝试最少的废话进行介绍,适合快速入门。
更简介的内容参考【笔试面试】MobileNet v1v2v3 简介,只有要点,适合记忆
背景
移动设备硬件资源和算力有限,不适合复杂深度学习模型。
轻量级神经网络
业内提出了SqueezeNet、ShuffleNet、NasNet、MnasNet、MobileNet以及EfficientNet等轻量级网络模型。本文主要介绍MobileNet。
MobileNet
MobileNet V1
核心
采用了深度可分离卷积降低计算量。
普通卷积:
对于输入
W
×
H
×
C
W\times{H}\times{C}
W×H×C(
C
{C}
C为输入通道数),以
K
×
K
K\times{K}
K×K卷积核为例,卷积核实际大小为
K
×
K
×
C
{K}\times{K}\times{C}
K×K×C。那么
N
N
N个卷积核进行卷积操作
计算量 =
W
×
H
×
K
×
K
×
C
×
N
W\times{H}\times{K}\times{K}\times{C}\times{N}
W×H×K×K×C×N
参数量 =
K
×
K
×
C
×
N
{K}\times{K}\times{C}\times{N}
K×K×C×N
MobileNet的深度可分离卷积:
将普通卷积拆分为一个dw (depthwise convolution)和一个1*1的卷积(文中叫pw (pointwise convolution))操作。
dw可理解为
K
×
K
×
C
{K}\times{K}\times{C}
K×K×C的卷积核变成
C
{C}
C个
K
×
K
{K}\times{K}
K×K卷积核,分别对每个通道进行卷积操作,再进行拼接得到
W
×
H
×
C
W\times{H}\times{C}
W×H×C的中间特征。pw则是采用
N
N
N个
1
×
1
×
C
1\times{1}\times{C}
1×1×C卷积核再次进行卷积操作,得到最终的输出。
计算量 =
W
×
H
×
K
×
K
×
C
+
W
×
H
×
1
×
1
×
C
×
N
W\times{H}\times{K}\times{K}\times{C}+W\times{H}\times{1}\times{1}\times{C}\times{N}
W×H×K×K×C+W×H×1×1×C×N
参数量 =
K
×
K
×
C
+
1
×
1
×
C
×
N
{K}\times{K}\times{C}+{1}\times{1}\times{C}\times{N}
K×K×C+1×1×C×N
比较:
参数量比值(速度可分离卷积/普通卷积) =
K
×
K
×
C
+
1
×
1
×
C
×
N
K
×
K
×
C
×
N
=
1
N
+
1
K
2
\frac{{K}\times{K}\times{C}+{1}\times{1}\times{C}\times{N}}{{K}\times{K}\times{C}\times{N}}={\frac{1}{N}+{\frac{1}{K^2}}}
K×K×C×NK×K×C+1×1×C×N=N1+K21
计算量比值(速度可分离卷积/普通卷积) =
W
×
H
×
K
×
K
×
C
+
W
×
H
×
1
×
1
×
C
×
N
W
×
H
×
K
×
C
×
K
×
N
=
1
N
+
1
K
2
\frac{W\times{H}\times{K}\times{K}\times{C}+W\times{H}\times{1}\times{1}\times{C}\times{N}}{W\times{H}\times{K}\times{C}\times{K}\times{N}} ={\frac{1}{N}+{\frac{1}{K^2}}}
W×H×K×C×K×NW×H×K×K×C+W×H×1×1×C×N=N1+K21
所以
K
=
3
K=3
K=3的时候(卷积核数
N
N
N一般比较大),参数量和计算量都降低到了原来的
1
8
\frac{1}{8}
81到
1
9
\frac{1}{9}
91之间。
其他
-
网络结构中步长为2的卷积较有特点,卷积的同时充当下采样的功能。这种形式也正在逐渐代替池化层。
-
此外作者提出了ReLU6激活函数: R e L U 6 = m i n ( m a x ( 0 , x ) , 6 ) ReLU6=min(max(0,x),6) ReLU6=min(max(0,x),6)ReLU6将小数点后的信息限制为3位,这意味着我们可以保证小数点后的精度(为在移动端设备float16的低精度的时候,也能有很好的数值分辨率)。
MobileNet V2
v1中出现的问题:ReLU导致信息损耗,且通道数越少,这种损耗越严重。
核心
提出了Inverted Residuals(倒残差) and Linear Bottlenecks (线性瓶颈)
Linear Bottlenecks (线性瓶颈)
简单的说就是,为了降低计算成本MobileNet在输出Feature Map时采用了较小的模型宽度,即通道数。而通道数较少时使用ReLU激活函数导致信息严重损耗,所以当通道数较少的时候采用线性激活函数,Linear Bottlenecks (线性瓶颈)由此得名。
我们当然不能把ReLU全部换成线性激活函数,不然网络将会退化为单层神经网络,一个折中方案是在输出Feature Map的通道数较少的时候也就是bottleneck部分使用线性激活函数,其它时候使用ReLU。
Inverted Residuals(倒残差)
在ResNet的残差结构中,先降低通道数再卷积(减少计算量),再调整通道数后同输入合并。(两头大中间小)
而在Inverted Residual Block中,为了避免过少的通道数导致信息损失,先将通道数进行了扩增(速度可分离卷积已经实现了较小的计算量,增大通道数可以有效避免信息损失),再减少。(两头小中间大)
总结,相较于V1,V2模型更深,体积更小,速度更快!
MobileNet V3
将关注点从减少参数转移到减少操作的数量(MAdds)和实际测量的延迟。分为Large和Small两个版本,Large版本适用于计算和存储性能较高的平台,Small版本适用于硬件性能较低的平台。
使用神经架构搜索(NAS)技术生成的网络结构。
-
引入了5×5大小的深度卷积代替部分3×3的深度卷积;
-
引入Squeeze-and-excitation(SE)模块,参考图5~8;
-
引入 h-swish(HS)激活函数;
-
结尾两层逐点卷积不使用批规范化(Batch Norm),MobileNetV3结构图中使用NBN标识。