通过参数共享实现高效的神经架构搜索
Efficient Neural Architecture Search via Parameter Sharing—2018
摘要
- 在ENAS中,控制器controller通过在大型计算图中搜索最佳子图来发现神经网络架构。
- 使用策略梯度policy gradient训练控制器,在验证集上,选择最大化预期奖励 的子图。
- 训练所选子图的模型,最小化规范的交叉熵损失。
- 在子模型间共享权重,使ENAS效果显著提升(比标准的神经网络体系结构搜索standard Neural Architecture Search便宜1000倍)
引言
- 循环训练RNN控制器,首先采样备选结构,如,子模型;随后训练至收敛,计算其性能;计算结果作为指导信号,多次迭代优化性能。
- 缺点:成本大,时间长。(用450个GPU来训练,找到一个优秀的架构也需要训练3到4天。也就是说,对于除了Google之外的普通贫民用户们,这种方法还是门槛太高、效率太低。)
- NAS计算瓶颈:训练每一个子模型至其收敛,只计算其准确性同时丢弃全部训练权重
- 主要贡献:强制子模型权重共享,避免每次从头训练模型。
- 方法思想基于迁移学习和多任务学习:特定任务模型参数可用于其他任务模型,几乎不需改进参数。
方法
-
ENAS的核心思想是观察到