NAS论文阅读笔记（DNAS）

最新推荐文章于 2021-10-19 10:56:55 发布

bfluss

最新推荐文章于 2021-10-19 10:56:55 发布

阅读量505

点赞数

分类专栏： NAS 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_38707467/article/details/105977795

版权

NAS 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

DARTS: Differentiable Architecture Search

论文链接：https://arxiv.org/abs/1806.09055 论文链接
代码链接：https://github.com/quark0/darts 代码链接

Abstract:

This paper addresses the scalability challenge of architecture search
by formulating the task in a differentiable manner.

our method is based on the continuous relaxation of the architecture
representation, allowing efficient search of the architecture using
gradient descent

faster than state-of-the-art non-differentiable techniques.

DARTS将搜索空间放宽为连续的，这样就可以通过梯度下降的方法来优化架构使其在验证集上表现得更好。特点是使用数量级较小的计算资源，比ENAS表现更出色，DARTS比很多现有的方法更简单，因为它不包括controllers，hypernetworks or performance predictors，并且它是在卷积和循环架构中通用的。DARTS能够在丰富的搜索空间中学习具有复杂图形拓扑的高性能架构构建块，不局限于任何特定的体系结构。

主要贡献：
1.提出了一种基于二层优化的可微网络结构搜索算法
2.表明基于梯度的架构搜索在CIFAR-10和PTB上超过了目前水平
3.实现了显著的效率提升（将架构发现的成本降低到几个GPU days），这归功于基于梯度的优化
4.证明了在CIFAR10和PTB上通过DARTS学习到的架构可以分别转移到Imagenet 和 WikiText-2

Search Space

搜索computation cell 作为最终架构的 building block ，学习到的cell既可以以stack的方式组成一个卷积网络，也可以以recursively connect的方式组成一个循环网络。
一个cell是一个由N个nodes组成的有向无环图，每个node xi 是一个潜在的表示，每一个边由一些操作o组成，假设cell有两个input nodes，output of the cell是通过对所有中间节点应用reduction operation（eg：concatenation）获得的。
所有的中间节点的计算基于它的前节点。
在这里插入图片描述

zero operation 代表两个节点之间没有连接。所以学习cell转化成了学习边上的操作。

Continuous Relaxation And Optimization

o是一系列的可选操作，每一个操作代表应用在x上的函数o()，为了让搜索空间连续，将绝对的一个特定操作的选择放宽到了一个所有可能操作的softmax
在这里插入图片描述
操作融合了一对nodes的权重并用一个维度为|o|的向量α参数化。架构搜索转化我了学习一组连续变量α，在搜索的最后，通过将每个混合操作替换成最可能的操作就可以得到一个离散的架构。

relaxation之后，目标是共同学习架构α和所有混合操作的权重，DARTS目标是用梯度下降优化validation loss 。
Ltrain和Lval由α和w决定，架构搜索的目标是找到α*，最大限度地减少验证损失在这里插入图片描述
与架构相关的权重W*通过最小化训练损失
得到。