【深度学习】轻量级神经网络之MobileNet

最新推荐文章于 2025-04-07 20:00:00 发布

聊北辰同学

最新推荐文章于 2025-04-07 20:00:00 发布

阅读量1.4k

点赞数 1

分类专栏：轻量级神经网络文章标签：深度学习机器学习神经网络卷积 python

本文链接：https://blog.csdn.net/weixin_43363778/article/details/107782040

版权

轻量级神经网络专栏收录该内容

5 篇文章

订阅专栏

前言：
本文为MobileNet的简单介绍，尝试最少的废话进行介绍，适合快速入门。
更简介的内容参考【笔试面试】MobileNet v1v2v3 简介，只有要点，适合记忆

背景

移动设备硬件资源和算力有限，不适合复杂深度学习模型。

轻量级神经网络

业内提出了SqueezeNet、ShuffleNet、NasNet、MnasNet、MobileNet以及EfficientNet等轻量级网络模型。本文主要介绍MobileNet。

MobileNet

MobileNet V1

核心

采用了深度可分离卷积降低计算量。
在这里插入图片描述

图1 深度可分离卷积

普通卷积：
对于输入 $W\times{H}\times{C}$ （ ${C}$ 为输入通道数），以 $K\times{K}$ 卷积核为例，卷积核实际大小为 ${K}\times{K}\times{C}$ 。那么 $N$ 个卷积核进行卷积操作
计算量 = $W\times{H}\times{K}\times{K}\times{C}\times{N}$
参数量 = ${K}\times{K}\times{C}\times{N}$
MobileNet的深度可分离卷积：
在这里插入图片描述

图2 深度可分离卷积操作示意图

将普通卷积拆分为一个dw (depthwise convolution)和一个1*1的卷积（文中叫pw (pointwise convolution)）操作。
dw可理解为 ${K}\times{K}\times{C}$ 的卷积核变成 ${C}$ 个 ${K}\times{K}$ 卷积核，分别对每个通道进行卷积操作，再进行拼接得到 $W\times{H}\times{C}$ 的中间特征。pw则是采用 $N$ 个 $1\times{1}\times{C}$ 卷积核再次进行卷积操作，得到最终的输出。
计算量 = $W\times{H}\times{K}\times{K}\times{C}+W\times{H}\times{1}\times{1}\times{C}\times{N}$
参数量 = ${K}\times{K}\times{C}+{1}\times{1}\times{C}\times{N}$
比较：
参数量比值（速度可分离卷积/普通卷积） =
$\frac{{K}\times{K}\times{C}+{1}\times{1}\times{C}\times{N}}{{K}\times{K}\times{C}\times{N}}={\frac{1}{N}+{\frac{1}{K^2}}}$
计算量比值（速度可分离卷积/普通卷积） =
$\frac{W\times{H}\times{K}\times{K}\times{C}+W\times{H}\times{1}\times{1}\times{C}\times{N}}{W\times{H}\times{K}\times{C}\times{K}\times{N}} ={\frac{1}{N}+{\frac{1}{K^2}}}$
所以 $K = 3$ 的时候（卷积核数 $N$ 一般比较大），参数量和计算量都降低到了原来的 $\frac{1}{8}$ 到 $\frac{1}{9}$ 之间。

其他

网络结构中步长为2的卷积较有特点，卷积的同时充当下采样的功能。这种形式也正在逐渐代替池化层。
此外作者提出了ReLU6激活函数： $R e L U 6 = m i n (m a x (0, x), 6)$ ReLU6将小数点后的信息限制为3位，这意味着我们可以保证小数点后的精度（为在移动端设备float16的低精度的时候，也能有很好的数值分辨率）。

MobileNet V2

v1中出现的问题：ReLU导致信息损耗，且通道数越少，这种损耗越严重。

核心

提出了Inverted Residuals（倒残差） and Linear Bottlenecks （线性瓶颈）

Linear Bottlenecks （线性瓶颈）

在这里插入图片描述

图3 Linear Bottlenecks （线性瓶颈）结构示意图

简单的说就是，为了降低计算成本MobileNet在输出Feature Map时采用了较小的模型宽度，即通道数。而通道数较少时使用ReLU激活函数导致信息严重损耗，所以当通道数较少的时候采用线性激活函数，Linear Bottlenecks （线性瓶颈）由此得名。

我们当然不能把ReLU全部换成线性激活函数，不然网络将会退化为单层神经网络，一个折中方案是在输出Feature Map的通道数较少的时候也就是bottleneck部分使用线性激活函数，其它时候使用ReLU。

Inverted Residuals（倒残差）

在这里插入图片描述

图4 传统残差结构（左图）和Inverted Residuals（倒残差，右图）

在ResNet的残差结构中，先降低通道数再卷积（减少计算量），再调整通道数后同输入合并。（两头大中间小）
而在Inverted Residual Block中，为了避免过少的通道数导致信息损失，先将通道数进行了扩增（速度可分离卷积已经实现了较小的计算量，增大通道数可以有效避免信息损失），再减少。（两头小中间大）

总结，相较于V1，V2模型更深，体积更小，速度更快！