论文笔记:NAS-BENCH-1SHOT1: BENCHMARKING AND DISSECTING ONE-SHOT NEURAL ARCHITECTURE SEARCH

@论文笔记:[NAS-BENCH-1SHOT1: BENCHMARKING AND DISSECTING ONE-SHOT NEURAL ARCHITECTURE SEARCH]

发表会议:ICLR2020

动机:为了支持多种nas算法在统一的环境下公平比较各自优势,以及更加廉价的比较不同超参数组合对各自算法的影响,研究者耗费较大算力,运行目前主流的darts算法,制作了一套数据集,包括不同搜索空间,几十万种神经网络结构。

实验:

搜索空间表示:

Network-Level Topology:

image-20200721145357812

Cell-Level Topology:和darts定义的空间相同或者类似,采取有向无环图定义一个cell。

三种搜索空间定义:

image-20200721151046986

NAS算法:

不同nas算法在不同搜索空间运行结果

image-20200721151120606

六种nas算法在三种同样的搜索空间里运行结果:

所有实验在一块rtx2080ti上进行,

image-20200721151210395

从上图可以看到:

1)验证误差和测试误差并没有呈现完全的相关性,比如PC-DARTS,在验证误差逐步下降的过程中,测试误差在开始阶段先有了一定的提高再开始降低。

2)不同的算法在不同搜索空间变现不同,比如在搜索空间1中,PC-DARTS表现最好,但在其余两种空间里表现并不是最优。

3)总体来说,GDAS在三个搜索空间内表现相对较好,但可以看出容易在较少的epoch内陷入局部最优。

4)ENAS和Random WS效果在三个搜索空间上最差,这是由于nasbench101上的模型与搜索过程中架构的真实性能评估没有相关性。但是当将搜索迭代次数设置为100时,在搜索空间2上,ENAS展现了比Random WS更好的性能。

image-20200721153406582

相关性分析:

image-20200721151802004

DARTS, PC-DARTS, GDAS and Random WS并没有呈现较好的相关性。这个相关性是指在nasbench上的测试精度和其真实精度的相关性。

鲁棒性

nas方法使用正则化方法可以改善搜索的结果,主要有cutout(数据增强的一种)和权重衰减两种,在搜索空间三使用不同的衰减因子,不同算法搜索效果如下:

image-20200721154036248

1)尽管之前的研究证明darts存在过拟合的现象,但这次实验表明gdas和pcdarts同样存在这一现象,如图4.(b)和图4. (c)所示。

2)在此搜索空间上,gdas和pcdarts当衰减系数为27e-4时,效果最优。

3)有趣的是,相同的正则化系数在不同搜索空间里得到的性能表现类似,如下图所示。

image-20200721154807818

超参数的可调性

使用BHBO进行超参调优。

image-20200721155027908

1)在所有的搜索空间内,使用BHBO都取得了比原darts默认参数更优的结果。

2)相比其他黑盒优化方法, Regularized Evolution在nasbench定义的搜索空间上表现最优。

3)找到的最优参数组合不仅避免了nas方法的过拟合,同时得到的架构取得了最优性能。

4) BOHB中的多保真不仅仅加速了nas搜索的过程,同时允许更多epoch的搜索以期得到更优的架构。

在一个搜索空间内得到的超参数是否具有迁移性?

实验表明没有明显的关系。

image-20200721160023013

不同正则化系数对于架构性能的影响

image-20200721160131087

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值