RETHINKING ARCHITECTURE SELECTION IN DIFFERENTIABLE NAS

最新推荐文章于 2024-03-29 20:33:57 发布

neverayever

最新推荐文章于 2024-03-29 20:33:57 发布

阅读量728

点赞数 1

分类专栏：论文实验文章标签：算法

本文链接：https://blog.csdn.net/Douzaikongcheng/article/details/122394377

版权

论文实验专栏收录该内容

26 篇文章 0 订阅

订阅专栏

RETHINKING ARCHITECTURE SELECTION IN DIFFERENTIABLE NAS

重新思考可微分NAS的结构选择

摘要

可微NAS在搜索阶段结束时，将选择具有最大架构参数的操作来形成最终的架构，隐含的假设是架构参数的值反映了操作强度。虽然关于超网的优化已经讨论了很多，但是体系结构选择过程却很少受到关注。我们表明体系结构参数的大小不一定表示操作对超网性能的贡献有多大。我们提出了另一种基于扰动的架构选择，直接测量每个操作对结果的影响。我们评估了几种不同的体系结构选择方法，发现它能够一致地从底层超网中提取出显著改进的体系结构。此外，我们发现所提出的选择方法可以极大地缓解DARTS的几种故障模式，这表明DARTS中观察到的较差的泛化能力可以归因于基于规模的体系结构选择的失败，而不是其超网的完全优化。

一：引言

可微分darts的缺点：1.简单的随机搜索的性能优于原始的DARTS。2.DARTS可能退化为充满无参数操作的网络，例如跳跃连接甚至随机噪声，导致所选架构的性能很差。

之前大多数研究将DARTS的失败归因于其超网优化，都假设α值反映了基础操作的强度。本文发现许多情况下，α并不能真正表明超网中操作的重要性。首先，相关的操作离散化后，较大的α不一定导致较高的验证精度。其次，作为一个重要的例子，我们从数学上证明了在DARTS中观察到的跳过连接的支配大于其他操作。实际上是超网优化的合理结果，但是当我们依赖α来选择最佳操作时，这就成了问题。

应该根据每个操作对超网性能的贡献来评估每个操作的强度。为此，我们提出了另一种基于扰动的体系结构选择方法。给定一个预训练的超网，根据它对超网精度的干扰程度来选择和离散化边上的最佳操作；最终的体系结构是边对边导出的，中间进行微调，以便超网保持收敛。我们评估了几种不同的选择方法(DARTS(刘等人，2019)，SDARTS(陈和谢，2020)，(李等人，2020))，结果表明，与基于星等的方法相比，所提出的选择方法能够从超星中一致地提取显著改进的体系结构。此外，我们还发现，用提出的基于扰动的选择方法代替基于幅度的选择，可以极大地缓解飞镖的鲁棒性问题

二：背景和相关工作

DARTS通过交替的梯度更新联合优化α和模型权重w：

我们将搜索阶段使用的连续松弛网络称为DARTS超网。在搜索阶段结束时，将从超网中选择与每个边上的最大α相关联的操作，以形成最终的体系结构。我们表明DARTS的健壮性问题可以通过更好的体系结构选择方法得到缓解。

渐进式搜索空间收缩有一系列关于网络连接存储的研究，其重点是通过渐进式搜索空间收缩来降低搜索成本并调整搜索和评估阶段的模型大小。这些方法的一般方案是，在搜索阶段，根据跟随DARTS的α的大小，依次剪除弱操作和边缘。在这方面，我们的方法与它们是正交的，因为我们选择操作是基于它对超网性能的贡献程度，而不是α值。虽然我们也贪婪地离散边，并在其间微调网络，但目的是让超网从离散化后的精度损失中恢复，以准确评估下一条边上的运算强度，而不是降低搜索成本。

三：DARTS中基于量级等的体系结构选择的陷阱

在这一节中，我们提出了体系结构参数α不一定代表基础操作的强度的观点，这一观点得到了经验和理论证据的支持。作为一个重要的例子，我们从数学上证明了在DARTS中观察到的跳过连接控制现象本身是合理的，并且当与基于幅度的体系结构选择相结合时会出现问题。

3.1 α不代表操作强度

图1: α与离散化精度的关系，所有运算在3条随机选择的边上收敛，这些边来自一个预训练的DARTS超网(每条边一个子图)。每次运算的α值不一定与其收敛时的相对离散精度一致。

Figure1: α vsdiscretizationaccuracyatconvergenceofalloperationson3randomlyselectededges from a pretrained DARTS supernet (one subplot per edge). The magnitude of α for each operation does not necessarily agree with its relative discretization accuracy at convergence.

图2:S2各边缘的操作强度(跳过连接，sep_conv 3x3)。(a)。与最大α相关的运算。(b)。在收敛时产生最高离散化验证精度的操作。参数化操作标记为红色。

Figure 2: Operation strength on each edge of S2 (skip connect, sep conv 3x3). (a). Operations associated with the largest α. (b). Operations that result in the highest discretization validation accuracy at convergence. Parameterized operations are marked red.

继DARTS之后，现有的可区分网络连接存储方法使用体系结构参数α的值从超网中选择最终的体系结构，隐含的假设是α代表底层操作的强度。

考虑预训练超网上的一条边；边上运算的强度可以自然地定义为超网精度，在我们对这个运算进行离散化并微调剩余的网络直到它再次收敛之后；我们简称之为“收敛时的离散精度”。在收敛时获得最佳离散化精度的操作可以被认为是给定边的最佳操作。图1显示了DARTS超网上随机选择边的α(蓝色)和操作强度(橙色)的比较。正如我们所看到的，每个操作的α的大小不一定与它们在收敛时通过离散化精度测量的相对强度一致。此外，分配有小α的运算有时是强运算，这导致收敛时的高离散化精度。为了进一步验证这种不匹配，我们研究了S2搜索空间的操作强度，在那里，由于过多的跳过连接，DARTS显著失败(Zela等人，2020)。S2是DARTS搜索空间的变体，每个边只包含两个操作(跳过连接，sep conv 3x3)。图2显示了基于S2所有边上的α(左)和操作强度(右)的选定操作。从图2a中，我们可以看到，在14条边中的12条边上，α跳跃连接>α分离conv 3x3。因此，派生的子架构将缺乏表示能力，并且由于过多的跳过连接而表现不佳。然而，如图所示在图2b中，与跳过一半边上的连接相比，超网从离散到sep conv 3x3中获益更多.

3.2一个案例研究: skip-connection

darts倾向于分配大的α跳过连接，导致浅的架构与差的泛化能力，之前一直认为这种“跳过连接控制”问题通常是由于DARTS的超网优化失败造成的。相比之下，我们从ResNet的研究中得到启发，并表明这种现象本身是一种合理的结果，而DARTS改进了其对最佳特征图的估计，从而在架构选择中表现出α skip effective。

表1:在cifar10上进行层(边缘)洗牌前后的测试精度。对于ResNet和VGG，我们在每个阶段随机交换两个层(定义为两个下采样块之间的连续层。对于DARTS超网，我们在每个单元中随机交换两条边。

Table 1: Test accuracy before and after layer (edge)shufﬂingoncifar10. ForResNetandVGG, we randomly swap two layers in each stage (deﬁned as successive layers between two downsampling blocks. For DARTS supernet, we randomly swap two edges in every cell.

在普通网络(例如VGG)中，每一层根据前一层的输出特征图计算新的特征图级别；因此，在测试时重新排序层会极大地损害性能。与普通网络不同，Greff等人(2017)和V eit等人(2016)发现，ResNet中具有兼容信道大小的连续层实际上是在估计相同的最佳特征图，因此这些层的输出在收敛时保持相对接近；因此，在层重新排序的情况下，ResNet的测试精度保持稳定。Greff等人(2017)将ResNet中这种独特的特征地图估计方法称为“展开估计”（”unrolled estimation.”）。

darts的超级网络在外观和行为上都类似于ResNet，而不是像VGG那样的普通网络。从外观上看，在DARTS超网的一个单元中，具有跳跃连接的边与ResNet中连续的剩余层直接对应。就行为而言，DARTS的超网在边缘洗牌的情况下也表现出高度的鲁棒性。如表1所示，在测试时对预训练的DARTS超网上的边进行随机重新排序对其性能也几乎没有影响。该证据表明，DARTS也像ResNet一样执行展开估计，即单元内的边共享它们试图估计的相同的最优特征图。在下面的命题中，我们应用这个发现，并在最小化特征映射估计的方差的意义上提供α的最优解。

命题1.1不失一般性，考虑由两个操作组成的简化搜索空间中的一个单元:(skip，conv)。设m *表示最优特征图，根据展开的估计视图(Greff等人，2017)，该最优特征图在所有边缘之间共享。设o_e(x_e)为卷积运算的输出，设x_e为跳过连接(即边e的输入特征映射)。假设m *，o_e(x_e)和xe归一化到相同的尺度。m *的当前估计值可以写成:

    其中α_conv和α_skip架构参数在DARTS中定义。最优α_conv^*和α_skip^*是minimizing变量var(m-e(x_e)-m*)，最优特征映射m*与其当前估计m-e(x_e)之差的方差由下式给出:

关于详细的证明，我们请读者参阅附录A.4。从公式(3)(4)我们可以看到，αskip和αconv的相对幅度下降到xe或者oe(xe)中的哪一个在方差上更接近m*

xe(边沿的输入)来自前一边沿的混合输出。由于每条边的目标都是估计m*(展开估计)，xe也直接估计m * 。oe(xe)是单次卷积运算的输出，而不是edge e的完全混合输出，因此即使在收敛时，它也会偏离m * 。

命题1原则上展开了最优α，并且不限制实现它的特定优化方法(即，双层、单层或块式更新)。此外，这个命题可以很容易地扩展到各种其他搜索空间，因为我们可以将所有非跳过操作分组到一个oe(`)中。

因此，在优化良好的超网中，xe自然会比oe(xe)更接近m∫，导致α_ skip大于α_ conv。

我们上面的分析表明，超网越好，(α_ skip - α_ conv)间隙(softmaxed)将变得越大，因为随着超网的优化，xe越来越接近m *。这一结果在图3中得到了证明，其中平均值(α跳跃αconv)随着超网变得更好而继续增长。在这种情况下，虽然αskip>αconvis本身是合理的，但如果我们选择基于α的最终架构，它就会成为对NAS的感应偏置。

图3:平均(αskip-αconv)(softmaxed)v.s .超网验证精度。(αskip-αconv)的间隙随着超网变得更好而增加。

四：基于扰动的体系结构选择

我们建议根据操作强度对超网性能的贡献来直接评估操作强度，而不是依靠α值来选择最佳操作。第4.1节列出了操作选择标准。在第4.2节中，我们描述了整个架构选择过程。

4.1评估每个操作的强度

在第3.1节中，我们将给定边上每个操作的强度定义为它对超网性能的贡献程度，用离散化精度来衡量。为了避免在离散化期间由于超网的大干扰而导致的不准确评估，我们微调剩余的超网，直到它再次收敛，然后计算其验证精度(收敛时的离散化精度)。需要执行微调过程来评估边缘上的每个操作，这将导致大量的计算成本。

为了减少计算开销，我们考虑了更实际的度量操作强度:对于给定边上的每个操作，我们在保持所有其他操作的同时屏蔽它，并重新评估超网。导致超网验证精度下降最大的一次操作将被视为该边缘最重要的操作。与离散化相比，这种替代标准对超网的扰动要小得多，因为它一次只从超网中删除一个操作。因此，删除后超网的验证精度保持接近未修改的超网，从而减轻了调整剩余超网收敛的要求。因此，我们在这项工作中为操作选择实施这种测量。

4.2完整的体系结构选择过程

我们的方法直接在darts的预训练超网之上运行。给定一个超网，我们随机迭代它的所有边。我们在一条边上评估每个操作，并根据第4.1节中描述的测量选择最佳的一个进行离散化。之后，我们调整超网恢复离散化过程中损失的精度的几个时期。重复以上步骤，直到确定所有边。算法1总结了操作选择过程。小区拓扑以类似的方式决定。我们请读者参考附录A.3了解完整的算法，包括决定小区拓扑。这种简单的方法在下面的章节中被称为“基于扰动的体系结构选择”。

选择一个边删除之后看对超网精度的影响，每条边最优的op为删除后精度下降最大的那个op

五：实验结果

在本节中，我们证明了基于扰动的体系结构选择方法能够始终如一地找到比基于α值选择的体系结构更好的体系结构。评估是基于DARTS和NAS-Bench-201的搜索空间(董和杨，2020)，我们表明基于扰动的体系结构选择方法可以应用于DARTS的几个变种。

5.1 RESULTS ON DARTS’ CNN SEARCH SPACE

关于飞镖的结果CNN搜索空间我们保持所有搜索和重新训练设置与飞镖相同，因为我们的方法只修改架构选择部分。在搜索阶段之后，我们按照算法1对预训练的超网执行基于扰动的架构选择。我们针对两个选择之间的5个时期调整超网，因为这足以使超网在离散化后从精度下降中恢复。我们用四个随机种子运行搜索和架构选择阶段，并报告获得的架构的最佳和平均测试错误。如表2所示，所提出的方法(DARTS+PT)将DARTS的测试误差从3.00%提高到2.61%，搜索成本可控(0.8 GPU天)。请注意，仅通过更改体系结构选择方法，DARTS的性能明显优于许多其他可区分的NAS方法，这些方法享受精心设计的超网优化过程，如(董和杨，2019)和(谢等人，2019)。这一经验结果表明，体系结构的选择对DARTS至关重要:通过适当的选择算法，DARTS仍然是一种非常有竞争力的方法。我们的方法也能够提高其他飞镖的性能。为了证明这一点，我们对我们的方法进行了评价，在SDARTS(rs)和(陈和谢长廷，2020；李等，2020)。SDARTS(rs)是DARTS的变体，它通过对α应用高斯扰动来正则化搜索阶段。与飞镖和SDARTS不同，SGAS执行渐进式搜索空间缩小。具体地说，SGAS根据一个新的边缘重要性分数，按照从最重要到最不重要的顺序逐步离散化其边缘。为了公平比较，我们保持其独特的搜索空间收缩过程不变，仅用我们的替换其基于幅度的操作选择。从表2中我们可以看出，我们的方法始终比基于大小的方法获得更好的平均测试误差。具体而言，该方法将标准测试系统的测试误差从2.67%提高到2.54%，将SGAS测试误差从2.66%提高到2.56%。此外，在我们的实验中发现的最佳架构实现了2.44%的测试误差，在其他网络连接存储方法中排名第一。

5.2 PERFORMANCE ON NAS-BENCH-201 SEARCH SPACE

Figure 4: Trajectory of test accuracy on space NAS-Bench-201 and three datasets (Left: cifar10, Middle: cifar100, Right: Imagenet16-120). Thetestaccuracyofourmethodisplottedbytakingthe snapshots of DARTS’ supernet at corresponding epochs and run our selection method on top of it.

图4:在空间NAS-Bench-201和三个数据集(左:cifar10，中:cifar100，右:Imagenet16-120)上测试精度的轨迹。我们方法的测试精度是通过拍摄相应时期的DARTS超网快照并在其上运行我们的选择方法来绘制的。

为了进一步验证所提出的基于扰动的体系结构选择的有效性，我们在NASBench-201上进行了实验。NAS-Bench-201提供了类似于DARTS的统一的基于单元的搜索空间。搜索空间中的每一个架构都在相同的协议下被训练成三个数据集(cifar10、cifar100和imagenet16-120)及其性能可以通过查询数据库来获得。如第5.1节所述，我们从DARTS中获取预包含的超网，并在此基础上应用我们的方法。所有其他设置保持不变。图4显示了DARTS+PT与DARTS相比的性能轨迹。当基于星等的选择发现的体系结构随时间退化时，基于扰动的方法能够稳定地从相同的底层超网中提取更好的体系结构。结果表明，飞镖的退化性能来自于基于数量的体系结构选择的失败。

六：分析

6.1 ISSUE WITH THE ROBUSTNESS OF DARTS

Zela等人(2020)观察到DARTS倾向于产生性能糟糕的退化架构。我们猜想DARTS的这种健壮性问题可以用基于量级的体系结构选择的失败来解释。

为了证明这一点，我们在Zela等人(2020) (S1-S4)提出的四个空间上，用基于扰动的体系结构选择来测试DARTS的性能。这些空间的完整规范可以在附录A.2中找到。给定一个超网，基于α选择的体系结构在空间和数据集之间表现不佳(表3中的第3列)。然而，我们的方法能够以显著提高的性能一致地提取有意义的架构(表3中的第4列)。

值得注意的是，DARTS+PT能够在S2(跳过连接，sep conv 3x3)和S4(噪音，sep conv 3x3)找到有意义的架构，而在这两个地方DARTS失败得很厉害。如图5所示，在S2，基于幅度的选择退化为充满跳跃连接的体系结构，而飞镖+点是能够找到具有4个卷积的结构；在S4，在α选择噪声的边缘，飞镖+点始终倾向于sep conv 3x3

图5:在S2和S4发现的正常细胞的比较。基于扰动的体系结构选择(DARTS+PT)能够在基于幅度的方法(DARTS)显著失败的情况下找到合理的体系结构。完整的体系结构可以在附录A.9中找到。非常重要的操作用红色标记。

6.2 PROGRESSIVE TUNING

除了操作选择之外，我们还在边离散化后调整超网，以便超网可以恢复丢失的精度。为了单独衡量我们的操作选择标准的有效性，我们对渐进调谐部分进行了消融研究。具体来说，我们通过将渐进调谐与基于幅度的操作选择相结合来测试基线，而不是我们的选择标准，我们将其编码为DARTS+PT-Mag。图6绘出了在操作选择阶段，飞镖+点样和飞镖+点样-磁的验证精度的变化。正如我们所看到的，DARTS+PT能够识别出比基于量值的替代方案更好的操作，从而导致更高的验证精度，揭示了我们的操作选择标准的有效性。而且DARTS+PTMag在cifar10上的DARTS空间上只能获得2.85%的测试误差，远不如DARTS+PT(2.61%)，说明操作选择部分在我们的方法中起着至关重要的作用。

图6:S2操作选择阶段验证准确性的轨迹。飞镖+PT能够选择比飞镖+PTMag更好的操作，从而获得更高的超网精度。

6.3 FIXING a AS UNIFORM

由于所提出的方法不依赖于α进行架构选择，自然的问题是是否有必要优化独立的α。我们发现，通过在训练超网时固定α = 0(所有操作的统一权重)，并应用基于扰动的体系结构选择，得到的方法的性能与DARTS+PT相当，在某些情况下甚至更好。比如DARTS+PT (fix α)在NAS-Bench-201上的性能比DARTS+PT更好。在飞镖的搜索空间及其变种S1-S4，飞镖+点(固定α)的表现类似于飞镖+点。结果见表3和表4。这一令人惊讶的发现表明，即使是最简单的方法，简单地训练一个没有α的超网，当与提出的基于扰动的体系结构选择相结合时，也将是一种有竞争力的方法。

表4: DARTS+PT v.s. DARTS+PT(固定α)在更多空间(测试错误百分比)在cifar10上。

七：结论和讨论

本文试图从体系结构选择的角度理解可区分的NAS方法。我们重新检查了DARTS基于规模的体系结构选择过程，并提供了经验和理论证据来解释为什么它不能表明底层的运行强度。我们引入了另一种基于扰动的体系结构选择方法，它通过对超网性能的贡献来直接测量操作强度。所提出的选择方法能够在几个空间和数据集上一致地从训练有素的超网提取改进的体系结构，与相应的基本方法相同。我们的方法在超网训练中带来了更多的自由，因为它不依赖于α来导出最终的体系结构。我们希望基于扰动的体系结构选择可以为网络连接存储社区带来新的视角，重新思考α在差异网络连接存储中的作用。