ECCV 2020 | 小米提出 Fair DARTS ：公平的可微分神经网络搜索

最新推荐文章于 2024-03-21 21:27:46 发布

我爱计算机视觉

最新推荐文章于 2024-03-21 21:27:46 发布

阅读量545

点赞数 1

原文链接：https://github.com/xiaomi-automl/FairDARTS

版权

本文深度解读小米 AI 实验室 AutoML 团队（作者：初祥祥、周天宝、张勃、李吉祥）在可微分神经网络搜索（DARTS）方向的最新成果 Fair DARTS，该工作已被ECCV 2020 接收。

该论文从公平性角度思考DARTS现存的问题并提出了有效的解决方案，另外本文设计了一种辅助损失函数，解决了离散化偏差的难题。

01.

创新点和贡献

1. 揭示可微分搜索中 DARTS 出现跳接操作（Skip Connections, SC）大量聚集的原因，即 DARTS 方法存在 skip 操作具有明显的不公平竞争优势，以及 softmax 操作潜在的排外竞争方式（两个结点之间只选择一个操作）。因此消除二者之一可以解决这个问题，本文方法采取了打破竞争（公平）的方法，即用 sigmoid 替代 softmax 来允许选择多个操作。

2. DARTS 是离散问题进行连续松散的解决方法，最后根据连续的结构权重编码来决定选择更具优势的 op，通常连续值和 0 和 1 之间有很大的差距，从而导致选择过程容易出现偏差。本文提出在公平条件下使用 0-1 损失将结构权重推向 0-1 两端，从而减小连续编码转成 one-hot 时存在的偏差。

3. 本文从公平性框架内重新解读现有解决 SC 聚集问题的方法，并指出现有方法的合理性。

02.

研究动机

1. DARTS 搜索结果容易出现大量的 SC，这种模型的性能通常不佳。关于为什么会出现 SC 聚集，目前还不清楚根本原因。本文通过不同的随机数种子重复 4 次实验，把每个节点中 softmax(α) 最高的两个操作选出来进行统计，证实 SC 急剧增多普遍存在（Fig2）。

2. 在 ImageNet 上进行 DARTS 搜索实验，SC（砖红色）聚集更加明显（Fig.1）。

3. 根据实验现象分析 SC 聚集导致性能崩塌的原因：竞争环境，存在不公平优势，二者同时作用导致 SC 聚集，进而带来性能崩塌。

1）SC 类似 ResNet 的 residual 模块，对训练是有益（Fig3），所以它的 α 权重提升快，对模型准确率没有得到相应程度的提升。

2）softmax 提供了一个潜在的排他性竞争，即在 softmax 的机制下，他强我弱，当 SC 初现苗头时，会加剧这种趋势。

4. 分析连续编码离散化时的差异：

连续值和离散值时存在较大差距（即连续 softmax(α) 权重最终需要转为 one-hot 编码来确定最终 op）。实验发现搜索阶段得出的 softmax(α) 值都是很接近的（4次重复试验发现 softmax(α) 值总在 0.1 到 0.3 之间，离期望的 1 很远），导致最终转化为 one-hot 编码时经常需要做出模糊的决策（例如两个不同操作的 softmax(α) 值是 0.176 和 0.174，很难判断哪个更优），所以连续编码离散化存在一定的差异。如 Fig4 中，softmax (α) 值都十分接近。

03.

方法

1. 提出使用 sigmoid 替代 softmax 处理结构权重，在这种情况下，多个 op 之间不会相互抑制，从而打破的 SC 可以发挥作用的竞争环境。具体地，将下式

变为

2. 提出添加辅助的 0-1 损失来缩小连续编码离散化的差距：在公平条件下，我们得以将不同操作的权重参数推向 0 或 1，扩大相对差异，即要么靠近 0 要么靠近 1

04.

实验

1. 模型在 CIFAR-10 数据集上对比，在使用了更低的乘加数和params后，精度可达 97.46%：

2. 模型在 ImageNet 数据集上的对比：

3. 模型结构

4. 消融实验

1）文中认为 SC 有明显的不公平优势，那去掉 SC，在竞争环境的搜索过程会公平一些吗？该文发现去掉 SC 后没有出现某个 op 集聚的问题（Fig 7）。

2）去掉辅助 0-1损失后，结构权重分布很宽（0-0.6），加上后能让结构权重分布趋向两极（0 或 1），从而很好地解决连续编码离散化的差异问题（Fig 8)

05.

思考

从文中认为的 SC 集聚的原因出发，可以发现，现有对于这个问题的有效改进的方法，都可以得到合理的解释。

1. PDARTS 在 SC 操作后添加 dropout，类似于抑制 SC 的优势，可以减弱其带来的影响。

2. RobustDARTS 中所有的操作都添加 dropout 同样能降低不公平的优势，但和 PDARTS一样， dropout rate 比较难于选择。

3. DARTS+ 中通过早停机制来限定 SC 的数量，在为干预大量 SC 出现，限制了不公平优势，但限制多少合适是一个问题。

4. 直接限定 SC 的数量是很强的人为先验，这样的模型通常都是比较优秀的模型。随机采样（Random M=2）满足该限制条件的模型进行完整训练，平均精度都高于 97% ，而且无需DARTS 搜索 (Table 3)

5. 根据前述分析可知，对 SC 输出加随机噪声也能干扰 SC 的不公平竞争优势，Table 3 中添加余弦递减的高斯噪声后，其搜索模型的平均精度较高 97.12%。

6. 至于是去掉不公平优势还是改变排他性竞争环境，FairDARTS 选择了后者（即更换 softmax 为 sigmoid，从而变竞争为合作），这样做更加简单且有效，同时还为消除连续编码离散化差异提供了铺垫（使用辅助0-1损失的前提条件是非排他环境）。

论文: 《Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search》

地址：https://arxiv.org/abs/1911.12126

开源地址：https://github.com/xiaomi-automl/FairDARTS

AutoML 团队招聘：AutoML/NAS 方向，全职/实习生

简历发送至 zhangbo11@xiaomi.com

备注：NAS

AutoML&NAS交流群

自动机器学习、神经架构搜索等技术，

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到

我爱计算机视觉

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
ECCV 2020 | 小米提出 Fair DARTS ：公平的可微分神经网络搜索

本文深度解读小米 AI 实验室 AutoML 团队（作者：初祥祥、周天宝、张勃、李吉祥）在可微分神经网络搜索（DARTS）方向的最新成果 Fair DARTS，该工作已被ECCV 202...
复制链接

扫一扫