《DARTS+：Improved Differentiable Architecture Search with Early Stopping》论文笔记

最新推荐文章于 2024-03-18 19:56:21 发布

m_buddy

最新推荐文章于 2024-03-18 19:56:21 发布

阅读量936

点赞数

分类专栏： NAS（Neural Architecture Search）文章标签： DARTS+

本文链接：https://blog.csdn.net/m_buddy/article/details/110920805

版权

本文深入分析了DARTS中结构参数α和网络参数w的竞争导致的性能下降问题，即collapse现象。通过研究，作者提出在结构参数稳定或出现过多skip connection时采用早停策略，有效改善网络性能。实验结果显示，CIFAR-10测试错误率降至2.32%，CIFAR-100为14.87%，ImageNet为23.7%。

摘要由CSDN通过智能技术生成

1. 概述

导读：NAS演化到使用可微网络结构DARTS的时候，已经将网络搜索的时间与显存消耗大大降低。但是随着训练epoch的增加DARTS的性能实际是collapse的，并不是持续提升。训练完成之后，发现最后搜索出来的网络结构趋向于较多的skip connection，而不是常规的卷积/池化等操作，这就导致了网络表达能力的病态。文章经过仔细分析DARTS优化的流程步骤，发现其中具体优化两部分参数：结构参数 $\alpha$ 和网络参数 $w$ ，这两个参数的优化过程其实是交替进行的，实际上这两个过程是不仅包含合作还包含了竞争关系的。之前的一些工作（PDARTS）中引入了一些正则化的方式来防止“过拟合”现象的发生，除了正则化的约束，其实还可以通过early stop的方式缓解这个问题。那么这篇文章的核心便是怎么去设置这个早停的判别机制了。文章的方法在CIFAR-10上test错误率为2.32%，CIFAR-100数据集上为14.87%，ImageNet数据集上为23.7%。

将文章提到的训练早停与训练到收敛这两种方式最后的到的网络结构进行比较，其结果见下图a所示：
在这里插入图片描述
可以看到当训练到收敛的时候网络会存在较多skip connection，这就导致了网络表达能力不足。