NAS EVALUATION IS FRUSTRATINGLY HARD

最新推荐文章于 2024-09-21 00:06:25 发布

没想好叫啥··

最新推荐文章于 2024-09-21 00:06:25 发布

阅读量381

点赞数

分类专栏：神经架构搜索文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/weixin_41246832/article/details/108441978

版权

神经架构搜索专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

目标
引言
实验
总结与展望

论文地址：https://arxiv.org/abs/1912.12522
代码：https://github.com/antoyang/NAS-Benchmark
发表在：ICLR 2020

目标

本文对多种NAS方法进行了深度的剖析，通过大量实验分析了NAS算法到底好在哪里。

引言

NAS方法将设计者从手动设计架构、超参数中解放了出来，但是如何评价算法的优劣依然是一个难题，大多数方法的搜索空间、训练规则、性能评估策略都不尽相同，这就导致了方法之间无法比较。同样，对于某一个算法而言，没有很好的消融实验也很难确认哪个部分对最终的结果是有帮助的，这就会导致一个问题—— Hypothesizing After the Results are Known 知道结果之后在反过来假设，完全弄错了研究的顺序。本文使用了8种NAS算法分别在5个标准数据集上进行实验，探索了NAS方法的本质。

实验

1、保证训练规制一致的前提下，验证算法与随机采样得到架构的性能差异。
在这里插入图片描述

算法相较于随机采样的方法提升较小，甚至有的算法不如随机采样，这说明了算法没有很好地收敛
网络的精度差距较小，说明搜索空间较小，即使最差的模型表现的也很好
算法在CIFAR-10上表现的都很好，但是在其他数据集上却不尽人意，有可能在CIFAR-10上对超参数的调整已经过拟合。而对于超参数如何确定，大多数的NAS算法并没有提到。

2、算法的搜索时间也是作为算法的一个可行性的度量。
在这里插入图片描述
3、展示算法相对于随机采样方法的相对提升。

几乎所有的方法在不同数据集上都不如随机采样的方法。
4、由于不同方法随机采样得到的结果差距较大，所以合理推测训练网络的方法对于算法的影响更大。
在这里插入图片描述
其中Base方法是DARTS没有使用任何的tricks。不同颜色代表添加不同的技巧。可见不同的Training Protocol（tricks）相对于架构来说对性能的影响更大。作者使用同样的tricks对 ResNet-50 也有显著的提升。
5、在DARTS搜索空间中，进一步展示不同epoch随机采样模型的性能。
在这里插入图片描述
进一步验证了相同的搜索空间，得到的网络性能类似。
6、采样了214个模型，绘制了模型测试精度和不同epoch中精度的相关性。

可见使用精度的移动平均有更高的相关性，可以用于早停。
7、设计了一个简单的搜索空间，和DARTS进行对比。
在这里插入图片描述
可见网络的性能差距不大，这两个分布只移动了0.18个精度点。以此证明搜索空间并不是影响性能的关键。更有可能的是Cell架构的设计。
8、不同数量的Cell对性能的影响。

9、网络性能与种子、Cell数量之间的关系。在这里插入图片描述
可见种子对性能的影响较大，所以不同的算法应该使用不同seed之后取平均最为最后的结果。Figure 9更是证明了深度差距的问题，可见PDarts.