本文是一篇神经网络架构搜索综述文章,从 Search Space、Search Strategy、Performance Estimation Strategy 三个方面对架构搜索的工作进行了综述,几乎涵盖了所有近几年的优秀工作。
■ 论文 | Neural Architecture Search: A Survey
■ 链接 | https://www.paperweekly.site/papers/2249
■ 作者 | Thomas Elsken / Jan Hendrik Metzen / Frank Hutter
引言
深度学习模型在很多任务上都取得了不错的效果,但调参对于深度模型来说是一项非常苦难的事情,众多的超参数和网络结构参数会产生爆炸性的组合,常规的 random search 和 grid search 效率非常低,因此最近几年神经网络的架构搜索和超参数优化成为一个研究热点。
本文从网络架构搜索的三个方面进行了分类综述,包括:
搜索空间
搜索策略
评价预估
问题定义
网络架构和超参数优化的问题,有以下的特点:
1. 评价函数未知,是一个黑箱优化问题,因为评价往往是在 unseen dataset 上进行评价;
2. 非线性;
3. 非凸;
4. 混合优化,既有离散空间,又有连续空间;
5. 一次优化结果的评价非常耗时,大型的深度学习模型参数数以亿计,运行一次结果需要几周时间;
6. 在某些应用场景中,存在多个目标。比如:移动端的模型结构优化,既希望得到尽量高的准确率,又希望有非常好的模型计算效率。
搜索空间
搜索空间定义了优化问题的变量,网络结构和超参数的变量定义有所不同,不同的变量规模对于算法的难度来说也不尽相同。