论文创新点:
•1.提出了新的NAS基准。建立的基础:NAS是一个专门的超参数优化问题;随机搜索是超参数的baseline。
•2.采用提前停止的随机搜索:在PTB和CIFAR-10
•3.具有权重共享的随机搜索性能 优于 早期停止的随机搜索功能
•4.探讨了已发布的NAS结果的现有可重复性
NAS存在问题:
•baseline不足:尚未在NAS基准上评估最新的超参数方法,难以量化NAS带来的性能提升。
•方法复杂:缺乏ablationstudies,不清楚哪些改变能真正提升性能。
•缺乏可重复性:1. 精确的可重复性(准确复现实验结果);2. 广泛的可重复性(实验结果的鲁棒性和可概括程度)
论文贡献:
•1.提供新的视角来研究传统超参数优化与领先的NAS方法之间的差距。估了在两个标准NAS基准(CIFAR-10和PTB)上结合随机搜索和提前停止的通用超参数优化方法。
•2.确定了NAS组件的一小部分。证明当使用相似的计算预算时,具有权重共享的正确调整的随机搜索与更复杂的方法相比具有竞争力。确定了以下影响我们算法行为的元超参数:batch size, number of epochs, network size, and number of evaluated architectures.
•3.开源了代码、随机种子、文档。
超参数优化的组件:
随机搜索步骤:
•1. 对于DAG中的每个节点,确定必须做出的决定。 在PTB搜索空间的情况下,我们需要选择一个节点作为输入,并选择相应的操作以应用以生成该节点的输出。
•2.对于每个决策,确定给定节点的可能选择。 在PTB搜索空间的情况下,如果我们将节点从1编号为N,则节点i可以将节点0到i-1的输出作为输入(单元的初始输入为索引0,也可能是索引 输入)。 此外,我们可以从{tanh,relu,Sigmoid和Identity}中选择一个运算,以应用于节点i的输出。
•3.最后,从一个节点移到另一个节点,我们从需要做出的每个决策的可能选择集中统一采样。
其中实验步骤和参数等,均按照DARTS(《Differentiable Architecture Search》)。
权重共享:
•仅使用随机采样的架构来训练共享权重
•共享权重的更新:在所给minibatch上挑选单一架构;通过反向传播更新权重(仅通过激活体系结构所指示的边缘和操作)
•训练了一定数量的时期的共享权重之后,使用这些训练后的共享权重来评估在单独的数据集上随机抽样架构的性能,作者在实验结果里对比了完全训练、部分训练、权重共享训练得到一个结构的时间。
早停止:
使用的是ASHA算法《Massively Parallel Hyperparameter Tuning》。该算法对SHA进行了并行化改进。
相关元超参数(Meta-Hyperparameters),即进行ablation studies总结得到的结果:
•Training epochs.增加epochs会增加minibatch的总数,并增加用于更新共享权重的体系结构的数量。增加架构搜索的计算时间。
•Batchsize. 减小批次大小也会增加minibatch小批量更新的数量,但会增加噪声梯度更新的成本。更多的minibatch更新会增加计算成本。
•Network size. 搜索网络规模的增加会增加共享权重的维度。较大的网络需要更多的GPU内存。
•Number of evaluated architectures.共享权重评估的架构数量增加,可以在架构搜索空间中进行更多探索。评估更多架构会增加架构搜索所需的计算时间。
实验步骤,为了评估这两个基准上具有权重共享的随机搜索的性能,在与DARTS相同的三个阶段中进行了研究:
•阶段1:以较便宜的搜索任务执行架构搜索,以查找单元块。
•阶段2:通过从头开始重新训练由最佳发现架构的多个单元块组成的更大的网络,从第一阶段评估最佳架构。 此阶段用于从多个试验中选择最佳的体系结构。
•阶段3:通过训练更多的时期(PTB)或训练更多的种子(CIFAR-10),对第二阶段发现的最佳架构进行全面评估。
实验结果:
PTB搜索结果:
Cifar10搜索结果:
CIFAR-10 Benchmark,Random是作者在修改了元超参数得到的实验结果 :
可复现性,作者在复现Darts时发现,迭代100 epochs和600 epochs时,效果最好的实验不是同一个,这里存在一个最优复现,和过程复现的问题。作者解决的方案,是将所有代码和随机种子开源。