谷歌轻量化网络Mnasnet（神经架构搜索）

一只波加猹~

已于 2023-10-16 17:01:38 修改

阅读量782

点赞数 3

分类专栏：研究生学习-AI 文章标签：机器学习深度学习

于 2023-10-16 17:01:03 首次发布

本文链接：https://blog.csdn.net/m0_46521375/article/details/133862577

版权

研究生学习-AI 专栏收录该内容

26 篇文章

订阅专栏

MnasNet: Platform-Aware Neural Architecture Search for Mobile

Abstract

为移动设备设计卷积神经网络 (CNN) 具有挑战性，因为移动模型需要很小且快速并且保持准确性。尽管人们致力于设计和改进所有维度上的移动 CNN，但当需要考虑的架构可能性如此之多时，手动平衡这种权衡是非常困难的。在本文中，我们提出了一种自动移动神经架构搜索 (MNAS) 方法，该方法明确地将模型延迟合并到主要目标中，以便搜索可以识别在准确性和延迟之间取得良好权衡的模型。与之前的工作不同，在之前的工作中，延迟是通过另一个通常不准确的代理（例如 FLOPS，计算复杂度，模型参数量，准确率）来考虑的，我们的方法通过在手机上执行模型直接测量现实世界的推理延迟。为了进一步在灵活性和搜索空间大小之间取得正确的平衡，我们提出了一种新颖的分解分层搜索空间，以鼓励整个网络中的层多样性。实验结果表明，我们的方法在多个视觉任务中始终优于最先进的移动 CNN 模型。在 ImageNet 分类任务中，我们的 MnasNet 在 Pixel 手机上实现了 75.2% 的 top-1 准确率，在 Pixel 手机上延迟 78 毫秒，比 MobileNetV2 [29] 快 1.8 倍，准确率高 0.5%，比 NASNet [36] 快 2.3 倍，准确率高 1.2%。我们的 MnasNet 在 COCO 对象检测方面也比 MobileNets 实现了更好的 mAP 质量。

1. Introduction

卷积神经网络（CNN）在图像分类、目标检测和许多其他应用中取得了重大进展。随着现代CNN模型变得越来越深和越来越大【31 InceptionV4，13 SENeT，36，26】，它们也变得越来越慢，需要更多的计算。计算需求的这种增加使得在资源受限的平台（如移动或嵌入式设备）上部署最先进的CNN模型变得困难。

鉴于移动设备上可用的计算资源有限，最近的许多研究都集中在通过减少网络深度和利用较便宜的操作（如深度可分离卷积[11]和分组卷积[33]）来设计和改进移动CNN模型。然而，手动设计一个资源受限的移动模型是具有挑战性的：人们必须仔细平衡准确性和资源效率，导致设计空间非常大。

图1：移动平台感知神经架构搜索概述。

在本文中，我们提出了一种用于设计移动CNN模型的自动神经架构搜索方法。图1显示了我们方法的概述，其中与以前方法的主要区别是延迟感知多目标奖励和新颖的搜索空间。（真实设备的运算延迟速度纳入到多目标函数里）我们的方法基于两个主要思想。首先，我们将设计问题公式化为多目标优化问题，同时考虑CNN模型的准确性和推理延迟（同时考虑速度和精度）。与之前使用FLOPS来近似推理延迟的工作[36，26，21]不同，我们通过在真实移动设备上执行模型来直接测量真实世界的延迟。我们的想法受到了FLOPS通常是不准确代理的观察的启发：例如，MobileNet[11]和NASNet[36]具有相似的FLOPS（575M对564M），但它们的延迟明显不同（113毫秒对183毫秒，详情见表1）。其次，我们观察到以前的自动化方法主要搜索几种类型的基本模块，然后通过网络重复堆叠相同的基本模块。这简化了搜索过程，但也排除了对计算效率很重要的层多样性（大脑系统中有许多不同类型的神经元细胞，同样考虑模型也应该具有许多不同类型的层）。为了解决这个问题，我们提出了一种新的分解分层搜索空间，它允许层在架构上不同，但仍然在灵活性和搜索空间大小之间取得了正确的平衡。

图2：准确性与延迟比较——我们的MnasNet模型在ImageNet上明显优于其他移动模型[29，36，26]。详情见表1。

我们将我们提出的方法应用于ImageNet分类[28]和COCO对象检测[18]。图2总结了我们的MnasNet模型和其他最先进的移动模型之间的比较。与MobileNetV2[29]相比，我们的模型将ImageNet的准确性提高了3.0%，而谷歌Pixel手机的延迟相似。另一方面，如果我们限制相同目标精度，那么我们的MnasNet模型比MobileNetV2快1.8倍，比NASNet[36]快2.3倍，精度更高。与广泛使用的ResNet-50[9]相比，我们的MnasNet模型实现了略高（76.7%）的精度，参数减少了4.8倍，乘加运算减少了10倍。通过将我们的模型作为特征提取器插入SSD对象检测框架，我们的模型在MobileNetsV1和MobileNetV2上改善了COCO数据集的推理延迟和MAp，并以少42倍的乘加操作实现了与SSD300[22]相当的mAP（23.0比23.2）。

速度相同的情况下，更准。精度相同情况下，更快。

总而言之，我们的主要贡献如下：

(多目标优化函数)我们介绍了一种多目标神经结构搜索方法，该方法优化了移动设备上的准确性和真实世界延迟。
（分解、分层的搜索空间）我们提出了一种新的分解层次搜索空间，以实现层多样性，同时仍然在灵活性和搜索空间大小之间取得适当的平衡。
（分类、检测新soft）在典型的移动延迟约束下，我们展示了ImageNet分类和COCO对象检测的最新准确性。

2. Related Work

(都是在已经有的模型上做压缩)

在过去的几年中，提高CNN模型的资源效率一直是一个活跃的研究课题。一些常用的方法包括 1）将基线CNN模型的权重和/或激活量化为较低位的表示[8，16]/权值量化，或 2）根据FLOPs[6，10]或平台感知指标（如[32]中引入的延迟）修剪不太重要的滤波器。然而，这些方法与基线模型相关联，并不专注于学习CNN操作的新组成。

人工设计通常训练时只能达到局部最优解，并且对于模型所取得的优化结果不能进行详尽的解释

另一种常见的方法是直接手工制作更高效的移动架构：SqueezeNet[15]通过使用更低成本的1x1卷积和减小滤波器个数来减少参数和计算的数量；MobileNet[11]广泛采用深度可分离卷积来减少计算密度；ShuffleNets [33，24]利用低成本的分组点卷积和通道重排；Condensenet[14]学习跨层连接分组卷积；最近，MobileNetV2[29]通过使用资源高效的逆残差结构和线性瓶颈层，在移动规模的模型中取得了最先进的结果。不幸的是，考虑到潜在的巨大设计空间，这些手工制作的模型通常需要大量的人力。

对于神经搜索来优化模型也是有很多相关的研究，但是大多只是对于模块的设计的研究，然后对生成的模块进行堆叠，并且只考虑准确度，不考虑在轻型设备上的运行效率。我们采用的多目标的利用神经搜索架构直接对模型进行设计，允许模型设计的模块之间所采用的卷积层结构不同，可以采用普通卷积，深度可分离卷积，带SE模块的卷积网络。

最近，人们对使用神经架构搜索来自动化模型设计过程越来越感兴趣。这些方法主要基于强化学习[35，36，1，19，25]、进化搜索[26]、可微分搜索[21]或其他学习算法[19，17，23]。/这些算法只能设计出基本单元，然后对基本单元进行堆叠；/虽然这些方法可以通过重复堆叠几个搜索单元来生成移动大小的模型，但它们没有将移动平台约束纳入搜索过程或搜索空间。与我们的工作密切相关的是MONAS[12]、DPP-Net[3]、RNAS[34]和Pareto-NASH[4]，它们试图在搜索CNN时优化多个目标，如模型大小和准确性，但它们的搜索过程在CIFAR等小任务上进行优化。相比之下，本文针对现实世界的移动延迟限制，并专注于更大的任务，如ImageNet分类和COCO对象检测。

3. Problem Formulation

我们将设计问题公式化为多目标搜索，旨在寻找具有高精度和低推理延迟的CNN模型（高精度低延迟多目标）。与以前通常针对间接指标（计算复杂度，模型参数量）（如FLOPS）进行优化的架构搜索方法不同，我们通过在真实移动设备上运行CNN模型，然后将真实世界的推理延迟纳入我们的目标，来考虑直接的真实世界推理延迟。这样做直接衡量了实践中可以实现的目标：我们的早期实验表明，由于移动硬件/软件特性的多样性，近似真实世界的延迟是一项挑战。

给定一个模型m，设ACC（m）表示它在目标任务上的准确性，LAT（m）表示在目标移动平台上的推理延迟，T是目标延迟。一种常见的方法是将T视为硬约束，并在此约束下最大化精度：

保证模型在小于等于T的前提下，使得ACC最大化。，在硬指标满足的前提下变成单目标

帕累托最优解：在相同预算下性能最优，或者在相同性能下预算最低。

然而，这种方法只最大化单个度量，而不提供多个帕累托最优解。非正式地说，如果一个模型具有最高的精确度而不增加延迟，或者具有最低的延迟而不降低精确度，则该模型被称为帕累托最优模型[2]。考虑到执行架构搜索的计算成本，我们更感兴趣的是在单个架构搜索中找到多个帕累托最优解。

虽然文献[2]中有许多方法，但我们使用定制的加权乘积方法来近似Pareto最优解，优化目标定义为：

其中w是定义为的权重因子：

其中α和β是应用特定的常数。选择α和β的经验规则是确保帕累托最优解在不同的精度——延迟权衡下具有相似的回报。例如，我们根据经验观察到，延迟加倍通常会带来大约5%的相对准确性增益。给定两个模型：（1）M1具有延迟L和精度a；（2）M2具有潜伏期2L和高5%的准确率a·（1+5%），应具有相似的回报： Reward(M 2) = a·(1 + 5%)·(2l/T )β ≈ Reward(M 1) = a·(l/T )β.求解此问题得到β≈−0.07。因此，我们在实验中使用α=β=−0.07，除非明确说明。

蓝线是帕累托最优曲线

图3：由等式2定义的目标函数，假设精度ACC（m）=0.5，目标延迟T=80ms：（上图）显示以延迟为硬约束的目标值；（下图）显示了将延迟作为软约束的目标值。

图3显示了具有两个典型值（α，β）的目标函数。在带有（α=0，β=−1）的上图中，如果测量的潜伏期小于目标潜伏期T，我们简单地使用准确性作为目标值；否则，我们会严厉惩罚目标值，以阻止模型违反延迟约束。下图（α=β=−0.07）将目标延迟T视为软约束，并根据测量的延迟平滑地调整目标值。

若（α=0，β=−1），在满足硬指标的情况下，不与latency有关，只与ACC有关，在不满足指标的情况下，会显著的惩罚latency.

4. Mobile Neural Architecture Search

在这一节中，我们将首先讨论我们提出的新的因子分解分层搜索空间，然后总结我们的基于强化学习的搜索算法。

4.1. Factorized Hierarchical Search Space

如最近的研究[36，20]所示，定义良好的搜索空间对于神经结构搜索极其重要。然而，大多数以前的方法[35，19，26]只搜索几个复杂的基本单元，然后重复堆叠相同的基本单元。这些方法不允许层分集，而层分集对于实现高精度和低延迟是至关重要的。

相同的单元破坏了不同层的多样性。模块单一。

将一个模型分解成不同的block，每个block都具有不同的结构。，block内部的层结构是一样的，不同block的层结构是不同的。

与以前的方法相比，我们引入了一种新的分解分层搜索空间，它将CNN模型分解成唯一的块，然后分别搜索每个块的操作和连接，从而允许不同块中的不同层架构。我们的直觉是，我们需要根据输入和输出形状搜索最佳操作，以获得更好的准确性权衡。在卷积的早期，需要处理大量的数据，考虑使用DW卷积提高效率，降低推理时间。例如，CNN的早期阶段通常处理更大量的数据，因此对推理延迟的影响比后期阶段高得多。形式上，考虑一个广泛使用的深度可分离卷积[11]核，表示为四元组（K，K，M，N），它将大小为（H，W，M）的输入转换为大小为（H，W，N）的输出，其中（H，W）是输入分辨率，M，N是输入/输出滤波器大小。乘法加法的总数可以描述为：

H ∗ W ∗ M ∗ (K ∗ K + N ) (4)

如果总计算量受到限制，这里我们需要仔细平衡核大小K和滤波器个数N。例如，用一层的较大内核大小K来增加感受野必须与减少同一层的滤波器个数N或从其他层计算来平衡。

图4显示了搜索空间的基线结构。我们将CNN模型划分为一系列预定义的块，逐渐降低输入分辨率并增加滤波器大小，这在许多CNN模型中很常见。每个块都有一个相同层的列表，其操作和连接由每个块的子搜索空间决定。具体而言，块i的子搜索空间由以下选项组成：

（卷积方式）卷积运算操作：常规conv（conv）、深度conv（dconv）和移动反向瓶颈conv[29]。
（卷积核大小）卷积内核大小内核大小：3x3，5x5。
（SE模块注意力机制）挤压与激励[13] SERatio：0，0.25。
（跨层连接方式）跳过操作SkipOp：池化、身份剩余或不跳过。
（输出卷积核大小）输出滤波器大小Fi。
（每个block中layer个数）每块Ni的层数。

图4：分解的分层搜索空间。根据输入分辨率和过滤器大小，网络层被分组为许多预定义的骨架，称为块。每个block包含可变数量的重复相同层，其中如果输入/输出分辨率不同，则只有第一层具有步幅2，但是所有其他层具有步幅1。对于每个块，我们搜索单个层的操作和连接以及层数N，然后同一层重复N次（例如，层4-1到4-N4是相同的）。来自不同块的层（例如，层2-1和4-1）可以不同。

ConvOp，KernelSize，SERatio，SkipOp；Fi决定一个层的架构，而Ni决定该层将为该块重复多少次。例如，图4中块4的每一层都有一个反向瓶颈5x5卷积和一个恒等残差跳过路径，同一层重复N4次。我们使用MobileNetV2作为参考来离散化所有搜索选项：对于每个块中的#层，我们基于MobileNetV2搜索{0，+1，-1}；对于每层的过滤器个数，我们在{0.75，1.0，1.25}中搜索其与MobileNetV2[29]的相对大小。

我们的分解分层搜索空间在平衡层的多样性和总搜索空间的大小方面具有明显的优势。假设我们将网络划分为B个块，每个块有一个大小为S的子搜索空间，每个块平均有N层，那么我们的总搜索空间大小将是SB，而不是大小为SB*N的平坦的每层搜索空间。一个典型的情况是S=432，B=5，N=3，其中我们的搜索空间大小约为1013，而perlayer方法的搜索空间大小为1039。

4.2. Search Algorithm

受最近工作[35，36，25，20]的启发，我们使用强化学习方法来寻找多目标搜索问题的帕累托最优解。我们选择强化学习是因为它很方便，奖励也很容易定制，但我们希望其他方法如进化[26]也应该有效。

具体来说，我们遵循与[36]相同的想法，将搜索空间中的每个CNN模型映射到一个令牌列表。这些标记由来自强化学习代理的基于其参数θ的动作序列a1：T确定。我们的目标是最大化预期回报：

其中m是由动作a1：T确定的采样模型，R（m）是由等式2定义的目标值。

使用RNN作为强化学习的智能代理 Agent(Controller)；
它可以采取一系列的行动，从而生成一系列的模型；每生成一个模型就将这个模型训练出来（Trainer）；
获取它的精度（accuracy）并在真实的手机（Mobile phones）上获取它的实测速度（latency）；
由精度和速度算出多目标的优化函数(Multi-objective reward)，就是我们刚才提到的公式；
再由这个函数作为奖励(reward)反馈给RNN代理（Controller）。

如图1所示，搜索框架由三个部分组成：基于递归神经网络（RNN）的控制器、用于获得模型准确性的训练器和用于测量延迟的基于移动电话的推理引擎。我们遵循众所周知的采样——评估——更新循环来训练控制器。在每一步，控制器首先使用其当前参数θ对一批模型进行采样，方法是基于其RNN中的softmax logits预测一系列token。对于每个采样模型m，我们在目标任务上训练它以获得其精度ACC（m），并在真实手机上运行它以获得其推理延迟LAT（m）。然后，我们使用等式2计算奖励值R（m）。在每一步结束时，控制器的参数θ通过使用近似策略优化[30]最大化由等式5定义的预期奖励来更新。重复sample-evalupdate循环，直到达到最大步数或参数θ收敛。

5. Experimental Setup

在ImageNet或COCO等大型任务中直接搜索CNN模型是昂贵的，因为每个模型需要几天才能收敛。虽然以前的方法主要对较小的任务执行架构搜索，如CIFAR10[36，26]，但我们发现当考虑模型延迟时，这些小代理任务不起作用，因为当应用于较大的问题时，通常需要扩大模型。在本文中，我们直接在ImageNet训练集上执行我们的架构搜索，但是训练epoch更少（过五次训练集）。通常，我们从训练集中随机选择50K幅图像作为固定验证集。为了确保准确性的提高来自我们的搜索空间，我们使用了与NASNet[36]相同的RNN控制器，尽管它并不高效：在64台TPUv2设备上，每次架构搜索需要4.5天。在训练过程中，我们通过在Pixel 1手机的单线程大CPU内核上运行来测量每个采样模型的真实世界延迟。总的来说，我们的控制器在架构搜索期间对大约8K个模型进行了采样，但是只有15个性能最好的模型被传输到完整的ImageNet，只有1个模型被传输到COCO。

对于完整的ImageNet训练，我们使用权重衰减0.9和动量0.9的RMSProp优化器。在动量为0.99的每个卷积层后添加BN层，权重衰减为1e-5。脱落率0.2应用于最后一层。在[7]之后，学习率在前5个时期从0增加到0.256，然后每2.4个时期衰减0.97。我们使用批量大小4K和初始预处理，图像大小为224 × 224。对于COCO训练，我们将学习到的模型插入SSD检测器[22]，并使用与[29]相同的设置，包括输入大小320 × 320。

6. Results

在本节中，我们研究了我们的模型在ImageNet分类和COCO对象检测方面的性能，并将它们与其他最先进的移动模型进行了比较。

6.1. ImageNet Classification Performance

表ImageNet分类的性能结果[28]。我们将我们的MnasNet模型与手动设计的移动模型和其他自动化方法进行比较——MnasNet-A1是我们的baseline模型；MnasNet-A2和MnasNet-A3是来自同一架构搜索实验的具有不同延迟的两个模型（用于比较）；#Params：可训练参数的数量；#Mult-Adds：每个图像的乘法——加法运算次数；top-1/5Acc。：ImageNet验证集上的前1或前5精度；推理延迟是在批量大小为1的Pixel 1手机的大CPU内核上测量的。

表1显示了我们的模型在ImageNet[28]上的性能。我们将目标延迟设置为T=75ms，类似于MobileNetV2[29]，并在架构搜索期间使用α=β=-0.07的等式2作为我们的奖励函数。之后，我们从同一个搜索实验中挑选了三个表现最佳的MnasNet模型，它们具有不同的延迟——准确性权衡，并将它们与现有的移动模型进行比较。

如表所示，我们的MnasNet A1模型在78毫秒延迟和3.9M参数/312M乘法加法的情况下实现了75.2%的前1名/92.5%的top-5精度，为这种典型的移动延迟限制实现了新的最先进的精度。特别是，MnasNet在相同像素手机上的运行速度比MobileNetV2（1.4）[29]快1.8倍，精度高0.5%。与自动搜索的CNN模型相比，我们的MnasNet运行速度比移动大小的NASNet-A[36]快2.3倍，top-1准确率高1.2%。值得注意的是，我们略大的MnasNet-A3模型比ResNet-50[9]实现了更好的精度，但参数减少了4.8倍，乘法加法成本减少了10倍。

鉴于SE注意力（SE[13]）相对较新，许多现有的移动模型没有这种额外的优化，我们还在表2的搜索空间中显示了没有SE的搜索结果；我们的自动化方法仍然明显优于MobileNetV2和NASNet。

6.2. Model Scaling Performance

考虑到现实世界中存在的无数应用需求和设备异构性，开发人员通常会放大或缩小模型，以准确性换取延迟或模型大小。（超参数α）一种常见的缩放技术是使用深度乘法器修改过滤器大小[11]。例如，0.5的深度乘数使每层中的通道数量减半，从而减少延迟和模型大小。（超参数β）另一种常见的缩放技术是在不改变网络的情况下减小输入图像的大小。

图5：不同模型缩放技术的性能比较。MnasNet是我们的基线模型，如表1所示。我们使用与MobileNetV2相同的深度乘数和输入大小来缩放它。

图5通过改变深度乘数和输入图像大小，比较了MnasNet和MobileNetV2的模型缩放性能。当我们将深度乘数从0.35改为1.4时，推理延迟也从20ms变化到160ms。如图5a所示，对于每个深度乘法器，我们的MnasNet模型始终比MobileNetV2获得更好的精度。类似地，我们的模型对输入大小的变化也很鲁棒，并且在从96到224的所有输入图像大小上始终优于MobileNetV2（精度提高了4.1%），如图5b所示。

除了模型扩展之外，我们的方法还允许为任何延迟目标搜索新的架构。例如，一些视频应用可能需要低至25毫秒的延迟。我们可以缩小baseline模型，或者搜索专门针对这一延迟限制的新模型。表4比较了这两种方法。为了公平比较，我们对所有型号使用相同的224x224图像尺寸。虽然我们的MnasNet在相同的扩展参数下已经优于MobileNetV2，但我们可以通过针对22毫秒延迟限制的新架构搜索来进一步提高准确性。

6.3. COCO Object Detection Performance

对于COCO对象检测[18]，我们选择表2中的MnasNet模型，并将它们用作SSDLite的特征提取器，SSDLite是SSD的一个修改的资源高效版本[29]。与[29]类似，我们将我们的模型与其他mobilesize SSD或YOLO模型进行比较。

表COCO对象检测的性能结果-#Params：可训练参数的数量；#Mult-Adds：每个图像的乘法加法次数；地图：test-dev2017上的标准平均值平均精度；地图、mAPM、mAPL：小型、中型、大型物体的平均精度；推理延迟：Pixel 1手机上的推理延迟。

表3显示了我们的MnasNet模型在COCO上的性能。YOLO和固态硬盘的结果来自[27]，而移动网络的结果来自[29]。我们在COCO trainval35k上训练我们的模型，并通过将结果提交给COCO服务器在testdev2017上评估它们。如表所示，我们的方法显著提高了V1和v2 MobileNet的准确性。与标准SSD300检测器[22]相比，我们的MnasNet型号实现了与SSD300相当的地图质量（23.0比23.2），参数减少了7.4倍，乘法加法减少了42倍。

7. Ablation Study and Discussion

在本节中，我们将研究延迟约束和搜索空间的影响，并讨论MnasNet架构细节和层多样性的重要性。

7.1. Soft vs. Hard Latency Constraint

我们的多目标搜索方法允许我们通过将α和β设置为奖励方程2中的不同值来处理硬和软潜伏期约束。图6显示了典型α和β的多目标搜索结果。当α=0，β=−1时，延迟被视为硬约束，因此控制器倾向于更多地关注更快的模型，以避免延迟损失。另一方面，通过设置α=β=−0.07，控制器将目标延迟视为软约束，并尝试在更宽的延迟范围内搜索模型。它对75毫秒的目标延迟值附近的更多模型进行采样，但也探索延迟小于40毫秒或大于110毫秒的模型。这允许我们在单个架构搜索中从帕累托曲线中选择多个模型，如表1所示。

7.2. Disentangling Search Space and Reward

多目标奖励和新的搜索空间的解耦实验，分别加到模型之中进行试验，分别对于模型的影响程度。

为了理清我们的两个关键贡献的影响：多目标奖励和新的搜索空间，图5比较了它们的表现。从NASNet[36]开始，我们首先采用相同的基于小区的搜索空间[36]，并使用我们提出的多对象奖励简单地添加延迟约束。结果显示，它通过将准确性转换为延迟来生成更快的模型。然后，我们应用我们的多目标奖励和新的分解搜索空间，实现了更高的准确率和更低的延迟，表明了我们的搜索空间的有效性。

7.3. MnasNet Architecture and Layer Diversity

图7：MnasNet-A1架构-（a）是从表1中选择的代表性模型；（b）-（d）是几个相应的层结构。MBConv表示移动反向瓶颈conv，DWConv表示深度方向conv，k3x3/k5x5表示内核大小，BN表示批量范数，H*W*F表示张量形状（高度、宽度、深度），× 1/2/3/4表示块内重复层数。

图7（a）说明了通过我们的自动化方法找到的MnasNet-A1模型。正如所料，它由整个网络中的各种层架构组成。一个有趣的观察是，我们的MnasNet同时使用3x3和5x5卷积，这不同于以前都只使用3x3卷积的移动型号。

表6：MnasNet及其变体的性能比较-MnasNet-A1表示图7（a）所示的模型；其他的是在整个网络中重复单一类型层的变体。所有型号都有相同的层数和每层相同的过滤器尺寸。

（整个模型使用单一类型的卷积核进行消融实验。）

为了研究层多样性的影响，表6比较了MnasNet及其仅重复单一类型层（固定内核大小和扩展比）的变体。我们的MnasNet模型比那些变体具有更好的准确性——延迟权衡，突出了层多样性在资源受限的CNN模型中的重要性。

8. Conclusion

本文提出了一种使用强化学习设计资源高效的移动CNN模型的自动神经结构搜索方法。我们的主要想法是将平台感知的真实世界延迟信息纳入搜索过程，并利用一种新颖的分解分层搜索空间来搜索在准确性和延迟之间具有最佳折衷的移动模型。我们证明了我们的方法可以自动找到比现有方法好得多的移动模型，并在典型的移动推理延迟约束下，在ImageNet分类和COCO对象检测方面实现了新的最先进的结果。由此产生的MnasNet架构还提供了关于层多样性重要性的有趣发现，这将指导我们设计和改进未来的移动CNN模型。

9. Acknowledgments

我们感谢Barret Zoph、Dmitry Kalenichenko、、Jeff Dean、Megan Kacholia、Menglong Zhu、、Shane Almeida、、Vishy Tirumalashetty、、郑，以及更大的设备自动化平台团队TensorFlow Lite和Google Brain团队。