NAS EVALUATION IS FRUSTRATINGLY HARD

论文地址:https://arxiv.org/abs/1912.12522
代码:https://github.com/antoyang/NAS-Benchmark
发表在:ICLR 2020

目标

本文对多种NAS方法进行了深度的剖析,通过大量实验分析了NAS算法到底好在哪里。

引言

NAS方法将设计者从手动设计架构、超参数中解放了出来,但是如何评价算法的优劣依然是一个难题,大多数方法的搜索空间、训练规则、性能评估策略都不尽相同,这就导致了方法之间无法比较。同样,对于某一个算法而言,没有很好的消融实验也很难确认哪个部分对最终的结果是有帮助的,这就会导致一个问题—— Hypothesizing After the Results are Known 知道结果之后在反过来假设,完全弄错了研究的顺序。本文使用了8种NAS算法分别在5个标准数据集上进行实验,探索了NAS方法的本质。

实验

1、保证训练规制一致的前提下,验证算法与随机采样得到架构的性能差异。
在这里插入图片描述

  • 算法相较于随机采样的方法提升较小,甚至有的算法不如随机采样,这说明了算法没有很好地收敛
  • 网络的精度差距较小,说明搜索空间较小,即使最差的模型表现的也很好
  • 算法在CIFAR-10上表现的都很好,但是在其他数据集上却不尽人意,有可能在CIFAR-10上对超参数的调整已经过拟合。而对于超参数如何确定,大多数的NAS算法并没有提到。

2、算法的搜索时间也是作为算法的一个可行性的度量。
在这里插入图片描述
3、展示算法相对于随机采样方法的相对提升。
在这里插入图片描述
几乎所有的方法在不同数据集上都不如随机采样的方法。
4、由于不同方法随机采样得到的结果差距较大,所以合理推测训练网络的方法对于算法的影响更大。
在这里插入图片描述
其中Base方法是DARTS没有使用任何的tricks。不同颜色代表添加不同的技巧。可见不同的Training Protocol(tricks)相对于架构来说对性能的影响更大。作者使用同样的tricks对 ResNet-50 也有显著的提升。
5、在DARTS搜索空间中,进一步展示不同epoch随机采样模型的性能。
在这里插入图片描述
进一步验证了相同的搜索空间,得到的网络性能类似。
6、采样了214个模型,绘制了模型测试精度和不同epoch中精度的相关性。
在这里插入图片描述
可见使用精度的移动平均有更高的相关性,可以用于早停。
7、设计了一个简单的搜索空间,和DARTS进行对比。
在这里插入图片描述
可见网络的性能差距不大,这两个分布只移动了0.18个精度点。以此证明搜索空间并不是影响性能的关键。更有可能的是Cell架构的设计。
8、不同数量的Cell对性能的影响。
在这里插入图片描述
9、网络性能与种子、Cell数量之间的关系。 在这里插入图片描述
可见种子对性能的影响较大,所以不同的算法应该使用不同seed之后取平均最为最后的结果。Figure 9更是证明了深度差距的问题,可见PDarts.

总结与展望

  • Augment tricks对性能的影响很大
  • 设计的算法应与随机采样的架构进行对比,这样才能真正证明算法的有效性
  • 由于在相同搜索空间中得到的架构性能类似,所以如何设计一个更好的架构?
  • 在相同的搜索空间下,整体Cell的连接对网络性能影响更大。
  • 在多个同类数据集上,避免对某一个数据集过拟合。
  • 消融实验证明每一个元素的重要性
  • 可复现性,不同的seed等超参数
  • 超参数调优的成本?
  • More fair and robust
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值