2021-04-14

Evaluating The Search Phase Neural Architecture Search

 

论文题目:评估神经架构搜索的搜索阶段

code: https://github.com/kcyu2014/eval-nas

paper:https://arxiv.org/abs/1902.08142

 

 

摘要

NAS的两个阶段:搜索架构空间和验证最佳架构,NAS目前仅根据其在下游任务上的结果进行比较,虽然直观,但未能明确评估他们搜索策略的有效性,本文中,我们建议评估NAS搜索阶段为此,我们将通过NAS搜索策略获得的解决方案的质量与随机架构选择的质量进行比较。

我们发现:(1)平均而言,最先进的NAS算法的性能类似于随机策略;(2)广泛使用的权重分配策略降低了NAS候选的排名,以至于不能反映他们的真实表现,从而降低了搜索过程的有效性。我们相信,我们的评估框架将是设计NAS战略的关键,这些战略将不断发现优于随机体系结构的体系结构。

一:引言

NAS技术有两个阶段:搜索阶段,旨在找到一个好的体系结构;评估阶段,从零开始训练最佳的体系结构,并在测试数据上进行验证。NAS通常基于评估阶段的结果进行比较。虽然这看起来很直观,但这些算法的搜索阶段通常在几个方面有所不同,例如它们的架构采样策略和它们使用的搜索空间,并且这些单个因素的影响不能仅通过查看下游任务结果来识别。此外,下游任务结果通常是针对单个随机种子报告的,这就没有回答搜索策略的鲁棒性问题。

我们将NAS解决方案的质量与随机搜索策略进行比较,随机搜索策略从与NAS算法相同的搜索空间中统一随机采样一个体系结构,然后使用与NAS解决方案相同的超参数对其进行训练。随机抽样体系结构的平均性能收敛于整个搜索空间的平均性能。(表1,越低越好)

 

RNN空间,ENAS和飞镖不能与整个搜索空间的平均性能区分开来,而NAO产生比随机抽样更差的能。虽然CNN空间的情况稍好,但这三种算法的性能仍然类似于随机采样。请注意,这并不一定意味着这些算法的性能很差,而是搜索空间受到了充分的限制,因此即使是该空间中的随机架构也能提供良好的结果。我们还观察到,在搜索过程中,由NAS算法生成的候选体系结构的质量排名并不能反映这些体系结构在评估阶段的真实性能。

对此的进一步研究使我们能够确定,广泛用于将所需资源量从数千GPU天减少到一天的权重共享会损害单个网络的性能。更准确地说,使用缩减的搜索空间,我们利用肯德尔τ度量1来表明,在RNN空间中,在有和没有权重共享的情况下获得的架构排名是完全不相关的(τ = -0.004,10次运行);并且在CNN空间中几乎没有相关性(τ =0.195,10次运行)

在CNN空间中没有权重共享的训练样本比随机样本高出一个显著的幅度。换句话说,我们否定了一个普遍的信念,即经过和不经过权重分配训练的架构质量是相似的。我们表明,排名的差异会对NAS算法的搜索阶段产生负面影响,从而严重阻碍其鲁棒性和性能。简而言之,评估通常被忽略的NAS的搜索阶段,使我们能够确定最先进的NAS算法的两个关键特征:搜索空间的重要性和权重共享的负面影响。我们相信,我们的评估框架将有助于设计优于随机搜索的NAS搜索策略。

二:相关工作

我们的目标不是引入新的搜索策略,而是提供分析现有策略的方法。NAS研究主要集中在两个方向: 1)用更好的搜索算法代替RL采样器,如梯度下降;2)利用NAS进行其他应用,例如对象检测,语义分割,寻找紧致网络。

三:评估NAS搜索

典型的NAS算法包括两个阶段:

 

搜索:在所有研究的策略中,初始化是随机的,因此结果取决于选择的随机种子

我们将现有算法的搜索阶段与随机搜索策略进行比较。一个有效的搜索算法应该产生一个明显优于随机策略的解决方案。下面,我们介绍我们的框架来比较NAS搜索算法和随机搜索。我们评估的三种NAS算法,即DARTS 、NAO和ENAS,代表了不同搜索算法的技术水平:强化学习、梯度下降和性能预测,在附录C中进行了讨论。

3.1与随机搜索相比

我们通过简单地为所有操作分配统一的概率来实现随机搜索策略,我们计算了由从头开始训练的NAS算法找到的最佳体系结构的验证结果,以及单个随机采样体系结构的验证结果。比较单个随机种子的这些值当然不能提供可靠的度量。因此,我们对在NAS算法的搜索阶段使用的多个随机种子重复这个过程,并如上所述对一个随机架构进行采样。然后我们报告这些结果在不同种子上的平均值和标准差。请注意,虽然我们使用不同的种子进行搜索和随机抽样,但在评估阶段从头开始训练模型时,我们总是使用相同的种子。

3.2缩小的搜索空间

对于CNNs,我们利用了NASBench-101 (Ying等人,2019),一个基于CNN图的搜索空间,有3种可能的操作,conv3x3、conv1x1和max3x3。该框架定义了3到7个节点的搜索空间,在7节点的情况下有423,624个架构。据我们所知,我们是第一个在NASBench上评估本文中使用的NAS方法的人。

四:实验结果

4.1标准搜索空间NAS的比较

权重共享极大地影响了搜索的有效性。CNN结果。在表2中,我们在刘等人(2019b)的搜索空间中比较了NAS方法和我们的随机策略。我们提供原始论文中报告的准确性,以及我们使用我们的实现复制的准确性。请注意,NAS算法仅略微优于随机搜索,前1名的准确率不到0.5%。NAO发现了最好的建筑,准确率为97.10%,比随机发现的高不到0.5%。请注意,我们的随机抽样没有搜索成本。相比之下,李和塔尔瓦尔卡尔(2019)在不同的随机搜索策略下获得了97.15%的准确率,其成本与DARTS相同。

 

观察结果:

1.经过评估的最先进的NAS算法并没有显著超过随机搜索,甚至在RNN搜索空间中表现更差。2.在三个测试样本中,ENAS样本的方差最小。表明ENAS对由搜索阶段的随机种子引起的方差更稳健。3.NAO政策对搜索空间更加敏感;虽然它在美国有线电视新闻网上的表现最好,但在RNN的表现最差。4.DARTS对随机初始化非常敏感,在10次运行中产生最大标准偏差(RNN为2.54,CNN为0.23)。

相比之下,如果我们假设搜索空间确实包含明显更好的架构,那么我们可以得出结论,这些搜索算法确实找不到好的架构。为了回答这个问题,我们在缩小的搜索空间中评估这些方法,在这里我们可以获得所有可能架构的真实性能。

4.2缩小搜索空间的NAS比较

表B: 减少搜索空间的结果。对于CNNs (B),我们在测试集上显示了平均值和最佳前1精度。我们不是在简化的空间中进行随机抽样,而是计算每种方法找到的最佳模型超过随机模型的概率(详见附录A.2)。整个搜索空间的平均值和最佳统计数据被报告为空间。三行分别为DARTS,NAO,ENAS。

 

减少CNN空间。在表3 (B)中,我们报告了在NASBench-101 7节点空间上10次不同运行的平均和最佳测试前1精度。为了评估搜索性能,我们还显示了整个空间中的最佳架构排名。通过这些方法找到的最佳测试精度是93.33,由NAO,这仍然比95.06的地面真实最佳值低得多。就排名而言,这些方法在10次运行中的最佳排名是19522,这是排名前4%的体系结构之一,在相同的搜索预算下,超过随机抽样方法的概率为0.62。请注意,ENAS和飞镖只有7%和24%的机会超越随机策略。该概率的定义见附录A.2,详细结果见附录D.3。NAO似乎总是在缩小的空间中胜过随机搜索。尽管如此,NAO选择的最终架构始终是初始池中的一个架构,它是统一随机采样的。这表明NAO的排名在整个搜索过程中没有正确更新,并且在实践中,在缩小的空间中,NAO类似于随机搜索

4.3权重共享的影响

表4证明,在去除重量分配后,ENAS和NAO始终发现了一个良好的架构,最佳10次以上运行和平均性能之间的微小差异表明了这一点。更有趣的是,对于7节点的情况,发现的最佳单元(NAO为94.11%,ENAS为94.04%)比权重共享的最佳单元(表3中分别为93.33和92.54)高1%以上。

结合以前的结果,我们认为这些结果证明了体重分担的负面影响;它极大地影响了采样架构的性能,从而使整个搜索过程变得复杂,并导致搜索策略不比随机策略更好。

五:结论

我们通过与随机搜索的公平比较,分析了NAS算法搜索阶段的有效性。我们已经观察到,令人惊讶的是,最先进的NAS技术的搜索策略并不比随机的好,并将其原因追溯到(1)受限的搜索空间和(2)权重共享的使用,这在搜索过程中打乱了体系结构的排名,从而对其产生了负面影响。从本质上说,我们获得的见解突出了最先进的NAS战略的两个关键属性,这两个属性在过去被忽略了,因为NAS评估只专注于目标任务的结果。我们相信这将是开发新的NAS算法的关键。未来,我们将通过设计宽松的权重共享策略来实现这一目标。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值