@论文笔记:Stabilizing Differentiable Architecture Search via Perturbation-based Regularization
发表会议:ICML2020
动机:尽管DARTS由于将架构搜索问题转化为连续优化问题并对转化后的双重优化问题作了近似从而极大加速了搜索效率,但其方法却展现了较大的不稳定性,尤其是在一些新问题上。前人实验发现海森矩阵的特征值与搜索性能有较强的相关性,本文进一步解释了这个现象,基于此提出两种正则化方法,实验证明在诸多问题(包括回归任务)有了明显的改善。
实验:
- Lanscape可视化
- 所提方法
本文希望可以增强考虑干扰后梯度下降的鲁棒性
- 为什么海森矩阵和darts方法求解效果直接相关?
可以看到,在内层优化时候,权重参数没有变化,此时利用架构参数进行更新,由上述泰勒展开公式来看,海森矩阵直接影响到优化