MnasNet：移动端模型的自动化神经架构搜索方法

最新推荐文章于 2024-07-21 21:24:25 发布

NoMorningstar

最新推荐文章于 2024-07-21 21:24:25 发布

阅读量3.7k

点赞数

本文链接：https://blog.csdn.net/qq_20657717/article/details/82825567

版权

本文提出了一种基于强化学习的自动化神经架构搜索方法，MnasNet，专为移动端设计。它将实际推理速度纳入搜索算法，通过分解的分层搜索空间实现模型的资源效率最大化。实验结果显示，MnasNet在ImageNet分类任务中实现了74.0%的top-1准确率和76毫秒的耗时，比MobileNet V2快1.5倍，比NASNet快2.4倍。此外，MnasNet在COCO对象检测任务上也展现出优越性能，提供了与MobileNets相比更高的mAP标准和更低的耗时。

摘要由CSDN通过智能技术生成

基于AutoML方法，结合强化学习设计一种资源约束的移动端 CNN 模型MnasNet。该系统主要包括三个部分：（1）循环神经网络驱动的控制器，用于学习和采样模型的架构；（2）训练器，用于构建和训练模型；（3）TensorFlow Lite驱动的推理引擎测量模型的速度。团队制定了一个多目标优化问题，旨在实现高准确率和高速，并利用带有定制奖励函数的强化学习算法来寻找帕累托最优解。该自动化架构搜索方法在多个复杂移动设备视觉任务上取得当前最佳性能。

论文链接：点击查看PDF

摘要

设计用于移动端的卷积神经网络（CNN）模型具有很大的挑战性，因为移动端模型在保持同样准确率的同时需要小而快。尽管人们一直在移动端模型的这三个方面上不断地设计和改进，但是当需要考虑许多架构可能性时，如何综合权衡这三个方面也是一项挑战。在本文中，我们提出了一种自动神经结构搜索方法，用于设计资源受限的移动端CNN模型。我们明确地将速度信息纳入搜索算法的主要奖励函数中，以便搜索可以识别一个在准确率和速度之间实现良好平衡的模型。不同于以前的架构搜索方法，在我们的实验中，模型速度是通过另一个替代品（如 FLOPS）来考虑的。我们的方法通过在特定平台上执行模型来直接测量模型速度，例如本研究中使用的 Pixel 手机。为了进一步在灵活性和搜索空间大小之间取得适当平衡，我们提出了一种新型因子化的层级搜索空间，允许整个网络中的层分集。实验结果表明，我们的方法在多个视觉任务中达到了state-of-the-art。在ImageNet分类任务中，我们的模型在Pixel手机上实现了74.0％的 top-1 准确率和76毫秒耗时，比MobileNet V2 快 1.5 倍，并且比 NASNet 快 2.4 倍。在COCO对象检测任务中，我们的模型系列实现了比MobileNets更高的mAP标准和更低的耗时。

引言
卷积神经网络（CNN）在图像分类，目标检测和许多其他应用方面取得了重大进展。随着现代CNN模型越深越大，它们也变得更慢，需要更多的计算资源。计算需求的增加使得难以在诸如移动或嵌入式设备的资源受限平台上部署最先进的CNN模型。

图1 移动端模型神经架构搜索方法概述

鉴于移动设备上可用的计算资源有限，最近的研究主要通过降低网络深度和利用较便宜的操作来设计和改进移动端CNN模型网络，如深度卷积（Howard et al.2017）和群体卷积（Zhang et al.2018）。然而，设计资源受限的移动端模型具有一定挑战性：一方面须谨慎地平衡准确性和资源效率，从而产生较大的设计空间。而更复杂的问题是每种类型的移动设备都有自己的软件和硬件特性，可能需要不同的架构来在准确率和速度之间做出最佳权衡。
在本文中，我们提出了使用强化学习设计移动端模型的自动化神经架构搜索方法。图1显示了我们的方法的整体视图，其中与以前方法的主要区别是多目标奖励和新的搜索空间。我们的方法受两个主要想法的启发。将设计问题描述为一个考虑 CNN 模型精度和推理实时性的多目标优化问题。使用架构搜索和强化学习以找到模型，在准确率和实时性取得平衡。其次，之前很多自动化搜索方法主要是搜索几种类型的单元，然后通过 CNN 网络重复叠加相同的单元，而未能考虑卷积操作造成的运算效率差异。例如，具有相同数量的理论FLOPS但形状不同的两个3x3卷积可能不具有相同的耗时。基于这一观察，我们提出了一个层级搜索空间，该搜索空间由一系列分解的模块组成，每个模块包含由具有不同卷积操作和连接的分层子搜索空间定义的层列表。我们展示了应该在架构的不同深度使用不同的操作，并且可以使用使用测量的推理等待时间作为奖励信号的一部分的架构搜索方法来有效地在这个大的选项空间中进行搜索。
我们将我们提出的方法应用于ImageNet分类和COCO对象检测。实验结果表明，我们的方法发现的最佳模型明显优于最先进的移动端模型。与最近的Mo-bileNetV2相比，我们的模型在Pixel手机上具有相同的耗时，将ImageNet的Top-1精度提高了2%。另一方面，如果我们限制目标top-1准确度，那么我们的方法可以找到另一个模型，在相同的精度的前提下，它比MobileNetV2快1.5倍，比NASNet快2.4倍。通过额外的压缩和激励优化，采用我们的方法，ResNet-50的Top-1精度达到了76.13％，参数减少了19倍，矩阵乘法运算减少了10倍。我们展示了我们的模型也很好地概括了不同的模型缩放技术（例如，不同的输入图像尺寸），与MobileNetV2相比，ImageNet的Top-1精度提高了约2％。通过将我们的模型作为特征提取器嵌入到SSD对象检测框架中，对比MobileNetV1和MobileNetV2，我们的模型改善了COCO数据集的运算耗时和mAP标准，并实现了与SSD300相当的mAP（22.9 vs 23.2），但计算成本低35倍。
总之，我们的主要贡献如下：
1。我们引入了一种基于强化学习的多目标神经网络搜索方法，该方法能够找到具有低实际推理耗时的高精度CNN模型。
2.我们提出了一种新颖的分解分层搜索空间，通过在灵活性和搜索空间大小之间取得适当的平衡，最大化移动模型的设备上资源效率。
3.我们对ImageNet分类和COCO对象检测方面的最先进的移动端CNN模型进行了显著和一致的改进。

相关工作
近年来，提高CNN模型的资源效率一直是一个活跃的研究课题。一些常用的方法包括1）将基线CNN模型的权重和/或激活量化为较低位表示，或2）在训练期间或之后修剪不太重要的滤波器，以降低其计算成本。然而，这些方法与基线模型相关联，并不专注于学习CNN操作的新组合。
另一种常见的方法是直接人工制作更高效的操作和神经架构：SqueezeNet通过普遍使用低成本的1x1卷积和缩小滤波器尺寸来减少参数和计算的数量; MobileNet广泛采用深度可分离卷积来最小化计算密度; ShuffleNet利用低成本的逐点组卷积和信道混洗;ShuffleNetV2 对网络进行了四点改进：（1）使用相同的通道宽度的卷积；（2）考虑使用组卷积；（3）降低碎片化程度；（4）减少元素级运算。 Condensenet学习使用跨层连接组卷积;最近，MobileNetV2通过Inverted Residual block。该结构和传统 residual block 中维度先缩减再扩增正好相反，因此 shotcut 也就变成了连接的是维度缩减后的 feature map。去掉了小维度输出层后面的非线性激活层，在移动尺寸模型中获得了最新的结果。不幸的是，考虑到潜在的巨大设计空间，这些人工制作的模型通常需要相当大的人力，并且仍然不是最理想的。
最近，人们越来越关注自动化神经结构设计过程，特别是对于CNN模型。 NASNet和MetaQNN使用强化学习开始了自动神经结构搜索的浪潮。因此，进一步开发了神经结构搜索，使用渐进式搜索方法，参数共享，分层搜索空间，网络传输，进化搜索，或差异搜索算法。虽然这些方法可以通过重复堆叠搜索的单元格来生成移动大小的模型，但它们不会将移动平台约束纳入搜索过程或搜索空间。最近，MONAS，PPP-Net，RNAS和Pareto-NASH试图优化多个目标，例如搜索CNN时的模型大小和准确性，但它们仅限于CIFAR-10等小型任务。相比之下，本文针对现实世界的移动端耗时约束，并侧重于更大的任务，如图像分类和COCO对象检测。

问题公式
我们将设计问题表述为一个多目标搜索，旨在寻找具有高精度和低运算耗时的CNN模型。与先前优化间接指标（如FLOPS或参数数量）的工作不同，我们通过在真实移动设备上运行CNN模型，然后将现实世界运算耗时纳入我们的目标，来考虑直接的实际运算耗时。这样做可以直接衡量现实世界中可实现的指标：我们对代理推论指标的早期实验，包括单核桌面CPU耗时和模拟成本模型的度量表明，由于移动设备软硬件配置的多样性，模拟实际的耗时是具有挑战性的。
给定模型m，让ACC（m）表示其在目标任务上的准确度，LAT（m）表示目标移动平台上的推理耗时，T是目标耗时。一种常用的方法是将T作为硬约束，并在该约束下最大化精度。