Abstract
mobilenetV3 是搜索技术和架构设计相结合的下一代mobilenet。MobileNetV3通过结合硬件感知网络架构搜索(NAS)和NetAdapt算法对移动电话cpu进行调优,然后通过新的架构改进对其进行改进。本文开始探索自动化搜索算法和网络设计如何协同工作,利用互补的方法来提高整体水平。通过这个过程,我们创建了两个新的发布的MobileNet模型:MobileNetV3-Large和MobileNetV3-Small,它们针对高资源和低资源用例。然后将这些模型应用于目标检测和语义分割。针对语义分割(或任何密集像素预测)任务,我们提出了一种新的高效分割解码器Lite reduce Atrous Spatial Pyramid Pooling (LR-ASPP)。我们实现了移动分类、检测和分割的最新技术成果。与MobileNetV2相比,MobileNetV3-Large在ImageNet分类上的准确率提高了3.2%,同时延迟降低了15%。与MobileNetV2相比,MobileNetV3-Small的准确率高4.6%,同时延迟降低了5%。MobileNetV3-Large检测速度比MobileNetV2快25%,在COCO检测上的精度大致相同。MobileNetV3-Large LR-ASPP的速度比MobileNetV2 R-ASPP快30%,在城市景观分割的精度类似.
1 Introduction
本文的目标是开发最佳的移动计算机视觉架构,以优化移动设备上的精确延迟交换。为了实现这一点,我们引入了
- (1)互补搜索技术;
- (2)适用于移动设备的非线性的新高效版本
- (3)新的高效网络设计
- (4)一个新的高效分割解码器
我们提供了深入的实验,以证明每种技术在广泛的用例和移动电话上评估的有效性和价值。
2 Related Work
设计深度神经网络结构来实现精度和效率之间的最优平衡是近年来一个活跃的研究领域。无论是新颖的手工结构还是算法神经结构搜索,都在这一领域发挥了重要作用。
SqueezeNet[22]广泛使用1x1卷积与squeeze和扩展模块,主要集中于减少参数的数量。最近的工作将关注点从减少参数转移到减少操作的数量(MAdds)和实际测量的延迟。MobileNetV1[19]采用深度可分离卷积,大大提高了计算效率。MobileNetV2[39]在此基础上进行了扩展,引入了一个具有反向残差和线性瓶颈的资源高效块。ShuffleNet[49]利用组卷积和信道洗牌操作进一步减少MAdds。CondenseNet[21]在训练阶段学习组卷积,以保持层与层之间有用的紧密连接,以便功能重用。ShiftNet[46]提出了与点向卷积交织的移位操作,以取代昂贵的空间卷积。
为了使体系结构设计过程自动化,首先引入了增强学习(RL)来搜索具有竞争力的精度的高效体系结构[53,54,3,27,35]。一个完全可配置的搜索空间可能会以指数级增长且难以处理。因此,早期的架构搜索工作主要关注单元级结构搜索,并且在所有层中重用相同的单元。最近,[43]探索了一个块级分层搜索空间,允许在网络的不同分辨率块上使用不同的层结构。为了降低搜索的计算成本,在[28,5,45]中使用了可微架构搜索框架,并进行了基于梯度的优化。针对现有网络适应受限移动平台的问题,[48,15,12]提出了更高效的自动化网络简化算法。量化[23,25,47,41,51,52,37]是另一个重要的补充努力,通过降低精度的算法来提高网络效率。最后,知识蒸馏[4,17]提供了一种附加的补充方法,在大型Teacher网络的指导下生成小而精确的Student网络。
3. Efficient Mobile Building Blocks
Mobile模式已经建立在越来越高效的基础之上。MobileNetV1[19]引入深度可分离卷积作为传统卷积层的有效替代。深度可分卷积通过将空间滤波与特征生成机制分离,有效地分解了传统卷积。深度可分卷积由两个独立的层定义:用于空间滤波的轻量级深度卷积和用于特征生成的较重的1x1点卷积。
MobileNetV2[39]引入了线性瓶颈和反向残差结构,以便利用问题的低秩性质使层结构更加有效。这个结构如图3所示,由1x1展开卷积、深度卷积和1x1投影层定义。当且仅当输入和输出具有相同数量的通道时,才用剩余连接连接它们。该结构在保持输入和输出的紧凑表示的同时,内部扩展到高维特征空间,以提高非线性过通道变换的表达能力。
MnasNet[43]建立在MobileNetV2结构上,通过在瓶颈结构中引入基于squeeze和激励的轻量级注意模块。注意,与[20]中提出的基于ResNet的模块相比,挤压和激励模块集成在不同的位置。模块位于展开中的深度过滤器之后,以便注意应用于最大的表示,如图4所示。
对于MobileNetV3,我们使用这些层的组合作为构建块,以便构建最有效的模型。图层也通过修改swish nonlinearities来升级[36,13,16]。挤压和激励以及swish nonlinearities都使用了sigmoid,它的计算效率很低,而且很难在定点算法中保持精度,因此我们将其替换为h-sigmoid[2,11],如5.2节所讨论的。
4. Network Search
网络搜索已经成为发现和优