《DARTS DIFFERENTIABLE ARCHITECTURE SEARCH》阅读笔记
本文做内容
现状
现有的最佳神经网络架构搜索算法尽管性能卓越,但需要很高的计算量,现在提出的基于RL,evolution, MCTS,SMBO,Bayesian optimization优化的方法。都是在一个离散域上,将NAS被视为一个黑盒优化问题,这导致了需要评估大量的架构。
作者
与在离散和不可微搜索空间上应用进化或强化学习的传统方法不同, 我们的方法是将搜索空间放松看成是连续的,所以可以在验证集上使用梯度下降法有效地搜索架构。
本文所用方法
本文方法概览
SEARCH SPACE
对应于上图中的a
CONTINUOUS RELAXATION AND OPTIMIZATION
首先使用softmax使离散的变成连续的,然后优化之后得到离散的操作。
计算损失需要架构参数和权重参数。
APPROXIMATE ARCHITECTURE GRADIENT
由于内部优化耗费巨大,精确地评估体系结构梯度可能是行不通的,所以本文提出一种简化的近似表示方法。
迭代程序如下图所示
根据上式6,应用链式求导法则和近似估计可降低优化的复杂度:
注意:本文中将等式7中的deta=0定义为一阶近似,>0定义为2阶。
DERIVING DISCRETE ARCHITECTURES
选择K个非零连接的最佳候选操作。
结果
N8y-1586244684218)]
[外链图片转存中…(img-93TcGOFX-1586244684221)]