《DARTS：Differentiable Architecture Search》论文笔记

最新推荐文章于 2024-03-12 20:57:11 发布

m_buddy

最新推荐文章于 2024-03-12 20:57:11 发布

阅读量451

点赞数

分类专栏： NAS（Neural Architecture Search）文章标签： DARTS

本文链接：https://blog.csdn.net/m_buddy/article/details/110499707

版权

NAS（Neural Architecture Search）专栏收录该内容

4 篇文章 0 订阅

订阅专栏

参考代码：darts

1. 概述

导读：在这篇文章之前的NAS文章很多是采用搜索空间与强化学习（或是演化算法）的组合，整个的网络的搜索流程是使用诸如policy gradient的方法产生结构优化梯度，期间也可以通过如ENAS的方式通过参数共享的方式加速网络搜索。但是更为直接的方式还是通过梯度优化的方式进行网络搜索，直接将离散结构优化问题转换为梯度问题，从而更加高效地进行求解（通过对边上操作的组合做softmax从而使得操作变得可微分，从而避免离散情况无法使用梯度下降）。在这篇文章中也是从整个网络节点构建一个超网络，之后在这个超网络中寻找最优子网络，并且为这个梯度下降求解过程进行了计算过程简化（进行了一阶和二阶梯度近似）从而进一步加快搜索速度，文章的方法在CIFAR-10数据集上获得了 $2.76\pm 0.09%$ 的性能表现。

在文章中将节点数据定义为 $x^{(i)}$ ，两个数据节点之间的边是 $(i, j)$ ，这个边代表的是多个操作的集合 $o^{(i,j)}$ （如卷积/池化/NULL（文中为zero）等），那么从节点 $i$ 到 $j$ 的运算过程可以描述为：
$x^{j}=\sum_{i\lt j}o^{(i,j)}(x^{(i)})$
因而整个搜索的流程可以归纳为下图：
在这里插入图片描述
其中包含的步骤：

1）首先定义一个搜索空间，图a；
2）将计算节点通过超网络的形式构建一个大图，图b；
3）通过梯度下降逐渐抽取出网络边中概率最大的操作，图c；
4）筛选最大概率得到最后的网络结构，图d；

2 方法设计

2.1 网络搜索的数学模型

文章中网络搜索的可选操作集合描述为 $\mathcal{O}$ ，操作 $o(\cdot)$ 代表对数据节点 $x^{(i)}$ 采用了某种集合中的确定操作，为了使得整个超网络链接可微分，文章将其通过softmax构建为几个操作和的形式，从而对应的输出可以描述为：
$\overline{o}^{(i,j)}(x)=\sum_{o\in\mathcal{O}}\frac{exp(\alpha_o^{(i,j)})}{\sum_{o^{‘}\in\mathcal{O}}exp(\alpha_{o^{‘}}^{(i,j)})}o(x)$
其中，操作集合 $\mathcal{O}$ softmax加权的部分其权值集合可以表示为 $\alpha=\{\alpha_{(i,j)}\}$ 。在完成搜索之后可以通过简单取最大概率的形式选择最后的网络结构 $o^{(i,j)}=\argmax_{o\in\mathcal{O}}\alpha_o^{(i,j)}$ 。

接下来就是要在搜索空间中寻找最优的概率分布了，这里就设计到两个部分的优化：搜索空间本身自带的参数 $w$ ，以及边的概率集合 $\alpha$ ，它们也分别对应两个损失 $L_{train},L_{val}$ 。因而整体的搜索任务目标是在网络参数 $w^{*}$ 前提下通过最小化损失函数 $L_{val}(w^{*},\alpha^{*})$ 获得最佳的子网络结构采样 $\alpha^{*}$ ，其中 $w^{*}$ 是通过最小化训练损失 $w^{*}=\argmin_wL_{train}(w,\alpha^{*})$ ，具体描述为：
$\min_{\alpha}L_{val}(w^{*}(\alpha),\alpha)$
$s.t.\ w^{*}(\alpha)=\argmin_{w}L_{train}(w,\alpha)$
需要注意的是上述的优化过程是一个递归优化过程，由于网络结构参数是一个高维数据，这就导致了整个优化过程变得困难，对此文章引入了一阶和二阶近似来进行简化。

2.2 优化梯度近似

对上文中的最优化目标函数求去梯度得到：
$\nabla_{\alpha}L_{val}(w^{*}(\alpha),\alpha)$
若是考虑了权重 $w$ 的更新过程，那么上面的梯度就可以描述为：
$\approx\nabla_{\alpha}L_{val}(w-\xi\nabla_wL_{train}(w,\alpha),\alpha)$
其中， $\xi$ 是对应学习任务部分的学习率，在实际分析中发现参数 $w$ 的迭代优化过程其实是相当消耗资源的，那么一个直观的想法就是能不能对 $w$ 的优化只使用单个训练步骤就可以完成，这样就可以节省掉很大的计算开销。这个情况在网络参数在局部最优值的时候，其 $\nabla_wL_{train}(w,\alpha)=0$ ，自然就不再需要对应优化过程了，只需要优化网络结构参数 $\alpha$ 就好了。则对于网络的优化过程可以描述为下面算法的步骤：
在这里插入图片描述
对上面的梯度进行链式法则展开的得到：
$\nabla_{\alpha}L_{val}(w^{‘},\alpha)-\xi\nabla_{\alpha,w}^2L_{train}(w,\alpha)\nabla_{w^{‘}}L_{val}(w^{‘},\alpha)$
其中， $w^{‘}=w-\xi\nabla_wL_{train}(w,\alpha)$ 代表一次网络的前向，上面计算过程中很大的计算量在后面的部分中，则可以对上面的部分使用下面的式子进行近似逼近：
$\nabla_{\alpha,w}^2L_{train}(w,\alpha)\nabla_{w^{‘}}L_{val}(w^{‘},\alpha)\approx\frac{\nabla_{\alpha}L_{train}(w^{+},\alpha)-\nabla_{\alpha}L_{train}(w^{-},\alpha)}{2\epsilon}$
经过上面逼近其计算过程大大降低只需要模型的两次前向和结构参数的两次后向传播，整体复杂度由 $O(|\alpha||w|)$ 减少为 $O(|\alpha|+|w|)$ 。