从2012年的Alexnet夺得 ILSVRC 2012冠军开始,CNN在图像识别领域层出不穷,出现了各种各样的网络架构,但是近年来都是依靠增加网络的深度和广度来提高准确率的,需要大量的使用GPU。但是要注意的是,这些在学术上的成就并不能应用到现实中,因为计算资源需求太高,而现实中的设备并没有这么强的算力。因此,作者提出了一种轻量级的CNN,大大减少了计算量,可以应用于手持设备上。
下面我们直奔主题,看看mobilenet的体系结构,分析下为何它能够实现轻量级,少计算吧!
其实,文章的核心思想挺简单,就是分解卷及操作。
一、深度可分卷积
MobileNet模型基于深度可分卷积(depthwise separable
convolution),这是一种分解卷积的形式,将标准卷积分解成深度卷积(depthwise convolution)和被称为点卷积(pointwise convolution)的1x1卷积。
下图显示了深度可分卷积的主要原理:
-
首先,(a)表示了标准的卷积:对于HxWxM的feature map(通常H=W,M为通道数),有N个Dk xDk xM的过滤器来进行卷积操作
-
(b)和(c)一起表示了深度可分卷积的处理步骤:
明确一点:feature map是由M层HxW大小的特征图堆叠起来的。
首先ÿ