点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
如何高效、准确地对神经架构进行性能估计是神经网络架构搜索(NAS)的一大关键问题。为了降低估计架构性能所需的训练成本,单次评估器(One-Shot Estimator, OSE)通过在所有架构之间共享一个“超网络”的参数来分摊架构训练成本。
最近也有研究者提出了完全不需要训练的零样本估计器(Zero-Shot Estimator, ZSE),以进一步降低架构评估成本。尽管这些评估器的效率很高,但它们的评估质量未得到充分的衡量和分析。本工作在五个不同大小、性质的搜索空间(NAS-Bench-101/201/301, NDS ResNet/ResNeXt-A)上衡量和分析了OSE 和ZSE的评估质量,并对评估器的应用和未来研究给出了建议。
本期AI TIME PhD直播间,我们邀请到华为-清华联合培养博士后——宁雪妃,为我们带来报告分享《神经网络架构的快速性能估计方法的衡量》。
宁雪妃:
2016年和2021年从清华大学电子工程系获得学士、博士学位。目前在华为-清华联合培养博士后工作站从事博士后研究。
1
Analysis Framework
What Does This Work Cares About?
神经网络架构搜索(Neural Architecture Search, NAS)算法通常由下图中三个部分组成:搜索空间,搜索策略和架构性能评估策略。
在对架构进行性能评估时,传统的做法需要将这个架构在训练集上训练并在验证集上测试得到精度作为架构的评估结果。由于单个架构训练开销较大,且搜索过程中待评估的架构数量较多,该估计策略的开销是比较大的。
所以,研究者们普遍关注如何使得架构评估变得更加高效,从而让整体的架构搜索过程变得更快。而我们关注的核心问题是:当前主流的高效性能评估策略的评估质量如何?
Analysis Target 1: One-Shot Estimators
我们的第一类分析对象是单次评估器(One-Shot Estimator, OSE)。该类评估器基于权重共享(parameter sharing)的策略,在不同架构之间共享权重参数,达到高效训练和评估的目的。
一般来说,单次评估策略会构建一种超网络(supernet),该超网络包含搜索空间里所有架构的权重,在评估一个架构性能时,我们只需要使用该架构在超网络中所对应的权重做推理即可,不需要再单独训练该架构。而在超网络的训练过程中,我们每次采样一个架构来更新超网络的权重。
Analysis Target 2: Zero-Shot Estimators
单次评估器是避免了单独训练每个架构,把训练成百上千个待评估架构的开销变成了训练单个超网络的开销,所以被称为单次评估器。
进一步地,研究者开始关心,能否进