NAS(Neural Architecture Search)
m_buddy
大表哥,还有大招吗... PS:本人所有文章均免费公开,任何收费条目请咨询平台
展开
-
《DARTS+:Improved Differentiable Architecture Search with Early Stopping》论文笔记
1. 概述 导读:NAS演化到使用可微网络结构DARTS的时候,已经将网络搜索的时间与显存消耗大大降低。但是随着训练epoch的增加DARTS的性能实际是collapse的,并不是持续提升。训练完成之后,发现最后搜索出来的网络结构趋向于较多的skip connection,而不是常规的卷积/池化等操作,这就导致了网络表达能力的病态。文章经过仔细分析DARTS优化的流程步骤,发现其中具体优化两部分参数:结构参数α\alphaα和网络参数www,这两个参数的优化过程其实是交替进行的,实际上这两个过程是不仅包含原创 2020-12-09 21:56:24 · 904 阅读 · 0 评论 -
《PDARTS:Bridging the Depth Gap between Search and Evaluation》论文笔记
参考代码:pdarts 1. 概述 导读:这篇文章在DARTS的工作的基础上,指出直接使用DARTS方法得到的模型搜索结果直接运用到大数据集(如ImageNet)的之后会存在性能下降的问题,文章经过分析得到这是由于在网络搜索和验证(另外的数据集)中是存在模型结构深度上的deep gap的。直接使用对应数据集(如ImageNet)进行搜索会带来很大的计算开销,这也是先有很多网络搜索都去小数据集上去提取网络结构,之后针对大的数据集对网络再进行放大的原因。对此一种简单的解决办法便是采用多级递进的方式进行搜索,边原创 2020-12-07 23:31:40 · 245 阅读 · 0 评论 -
《DARTS:Differentiable Architecture Search》论文笔记
参考代码:darts 1. 概述 导读:在这篇文章之前的NAS文章很多是采用搜索空间与强化学习(或是演化算法)的组合,整个的网络的搜索流程是使用诸如policy gradient的方法产生结构优化梯度,期间也可以通过如ENAS的方式通过参数共享的方式加速网络搜索。但是更为直接的方式还是通过梯度优化的方式进行网络搜索,直接将离散结构优化问题转换为梯度问题,从而更加高效地进行求解(通过对边上操作的组合做softmax从而使得操作变得可微分,从而避免离散情况无法使用梯度下降)。在这篇文章中也是从整个网络节点构建原创 2020-12-02 21:28:40 · 414 阅读 · 0 评论 -
《ENAS:Efficient Neural Architecture Search via Parameter Sharing》论文笔记
参考代码:enas 1. 概述 导读:这篇文章是在NAS的基础上提出使用权值共享的方式进行网络搜索,避免了控制器采样得到sample的重复训练,从而压缩整体搜索时间的网络搜索算法ENAS。在NAS中首先由控制器采样出一个网络结构,之后将其训练到收敛,之后将该采样网络的性能作为控制器的reward(但是这里花了大力气训练出来的权重就会被丢弃),从而训练和引导控制器使其下一个产生的网络更好。这篇文章在网络参数上进行共享,每次从这个整体的网络搜索空间采样出来样本(一个子网络它们的参数是共享的)不需要训练到收敛,原创 2020-12-02 19:53:52 · 644 阅读 · 0 评论