[NAS]MixPath: A Unified Approach for One-shot Neural Architecture Search


MixPath:一种一次性进行多路径搜索的NAS方法)

Abstract

混合使用多种卷积核在神经结构架构搜索中具有优势。但是目前的NAS方法主要局限于堆叠单路径搜索空间,如何搜索多路径的模型仍然没有得到解决。本文致力于如何训练一个多路径的超网来评价候选网络。本文发现在本文研究的多路径搜索空间中特征向量几乎是单路径特征向量的倍数结果,这就扰乱了超网的训练和超网的排序能力。因此本文提出一种新的机制,叫做影子批归一化(Shadow Batch Normalization,SBN)可以对不同特征统计量进行归一化处理。大量实验结果表明SBN可以稳定训练过程、提升排名相关性,本文将这种方法称之为MixPath。

Section I Introduction

神经网络自动设计时AutoML的一个重要研究方向,在主流的方法中one-shot方法基于权重共享大大降低了计算成本,但是他们只能搜索单路径网络。而多路径结构有利于提升网络性能,比如ResNeXT,在FairDarts中就尝试进行了多路径搜索。但是它是基于以下前提,即训练的one-shot超网可以准确的预测其多路径子模型的性能。
虽然fAIR NAS解决了单路径下的排名问题,但是无法直接将其应用在多路径场景。本文的贡献总结如下:

(1)本文提出一种统一的用于多路径搜索的NAS方法,并不是当前单路径堆叠的方式,从这个角度看当前的one-shot path方法都是本文m=1时的一种特例。

(2)本文解释了为什了多路径训练容易失败,本文还提出一种新的更清凉季的方法-SBN可以增加训练稳定性;并且可以基于不同路径的特征相似性来进一步减少m的数量,不然搜索是指数上升的。


(3)本文解释了基于SBN进行多路径搜索可以提升超网训练的稳定性,也可以提升其排名的相关性。SBN还可以与后校准一起进行BN。本文在NAS-Bench-101的一个子集进行了测试获得了较高的肯德尔指标。


(4)本文在ImageNet进行无代理的搜索,搜索时间为10 GPU days,搜索结果在Imagenet上达到了SOTA,可以与MixNet想对比,但是算力是本文的200倍。此外本文的Mix-Path-B使用了多分支特征聚合,FLOPs和参数量更少。

Section II Related Work

Model Ranking Correlation
NAS最难以及搜索成本最高的在于候选模型的性能评估。有不同的方法对模型排名相关性进行了研究,比如隐式糊显式的使用性能预测predictors来避免实际子网络的实际验证;近期one-shot方法基训练超网和权重继承可以大大降低搜索成本。需要强调的是这类算法最重要的就是其排序能力,因为要用来评估子网络的性能,为了定量分析他们之间的排名能力主要使用肯德尔Tauτ指标。
weight-sharing mechanism

one-shot 方法主要使用 权重共享机制来进行NAS搜索,不同操作的中间特征展现出很高的相似性,确保这种相似性对于稳定训练一个超网十分重要。


Mixed Depthwise Convolution


MixNet提出一种可以处理不同深度卷积的通道等划分方法,证明对图像分类很有效。但是如果MixNet依旧遵循MNASNAS搜索成本就太高了,不适合实际应用。AutoNAS的搜索空间包含了通道可变的MixConv,并且使用可微方法来取出一些dead block。尽管最终搜索的模型性能很高,但是这种细粒度的通道划分导致了很大的不一致性,移植到移动端需要进一步处理。



Multi-branch Feature Aggrefation



本文认知中第一个多分支的神经网络是使用了skip connection的ResNet,ResNeX进一步做了推广,将一些同质的卷积进行了加和。




Conditional Batch Normalization





BN通过将每层的输入归一化来稳定训练,在训练超网时仅使用NC无法有效捕获各种输入的动态特征,在Slimmable中引入了共享超网的概念可以在不同尺度上进行,但是需要对不同路径上使用不同的BN来统计输入信息。但是如果放到任意通道宽度上就不切实际了,因为需要进一步增加BN的数目,原文也是通过分布式计算来规避这一问题。

Section III Mix Path

# Part 1 Motivation

**This is a call for a multi-path one-shot approach.**








目前的基于权重共享的方法可以分成以下两类: 先验学习和多路径方法,参见Fig 2。比如DARTS和F air DARTSd都是先学习一个较为优异的网络,后者还允许两个节点之间的多条路径。而一次性方法不学习先验知识,而是学习一个超网来评估子网络的性能。目前他们还都仅限于单路径的搜索空间,因此自然就会想到多路径的搜索空间。像Inception系列已经证明使用多路径特征聚合是十分有效的,并且可以有效的权衡精度和计算成本。








在这里插入图片描述
考虑输入为CinxHxW,计算成本是:
在这里插入图片描述

深度卷积核k一般设置为3或者5,因此Cin一般是影响计算成本最主要的因素,本文可以通过增加k的数目这样一方面带来的计算成本较小同时又能增强深度转换的代表能力,可以看做是MixConv和ResNeXt的结合。
Vanilla training of multi-path supernets suffer from severe training difficulties


可以通过一次随机激活多个路径来训练多路径超网,比如使用伯努利采样来独立的激活每个操作,但是根据本文在ImageNet上对MixPath进行的初步实现可以看到训练过程并不稳定——参见Fig 3的蓝线,可以看到one-shot超网学习无法将有用的信息传递到子网上,因此本文认为不稳定的超网训练会影响超网的排名能力。



是什么原因导致了这样的问题呢?



之前的研究表明不同操作提取的特征其余弦相似性是类似的,而打破这种相似性可能会导致训练的不稳定性。
比如本文提取了超网中不同特征的余弦相似性,发现不仅单路径的特征比起相似,而且多路径的特征叠加也是如此,即余弦相似性理论在这里似乎并不适用——参见Fig 4的最上面。可以看到因为特征一般是高维向量,因此将他们相加不会改变他们之间的角度,因为他们是相似的,但是确实会放大特征向量的幅度(参考图中最右边的蓝色箭头),这样就会影响特征的统计数据。
我们可以进一步做一个大胆的假设:多个向量的简单叠加会对特征统计数据有动态影响从而使得训练不稳定,将特征缩放到相同尺度可以稳定训练。





在这里插入图片描述
在这里插入图片描述

Part 2 Regularization Statistics with Shadow Batch Normalization

因此本文提出使用多个BN来归一化特征数据,称之为Shadow Batch Normalization(SBN),参见Fig 4(b),可以看到在SBN的作用下具有不同幅度的特征向量被缩放到相同的尺度,但如果不使用SBN他们就会被缩放到不同的尺度;另外SBN也可以捕获到不同的分布。
接下来本文将从余弦相似度出发来证明SBN的可行性。

y=f(x)和z=g(x)分别代表两个候选操作,接下来证明引理1:

引理1:如果y和z满足0阶的前提条件,则二者均值和方差相等。

在这里插入图片描述

上述引理表明,较高的特征相似性会使得期望和方差接近。在多路径搜索中本文只允许使用有限数目的BN来组合不同的特征,尽管SBN的数目会指数增长,幸运的是因为每个路径的特征相似,可以推导出引理2,将SBN的数目减少为m。

引理2:设m为激活的路径数目,并且所有操作满足0阶条件,那么所有组合共有m种期望和方差。
在这里插入图片描述

到目前为止本文已经证明了前期的假设,就是多路径激活会动态影像特征的分布,本文的SBN旨在以更灵活的路径组合方式匹配动态变化的特征,但是通道的数目是固定的。
SBN的实验数据分析
本文在搜索空间S1中进行了搜索,设置m=2,并搜集了所有通道SBN的统计数据,参见Fig 5.可以看到SBN1捕获了一个分支的统计信息,SBN2捕获的是2条路径的,可以看到有以下数学关系:
可以看到SBN可以将不同的统计数据转换到相似的分布上,比如γ和β的已经很接近了。

Part 3 Neural Architecture Search with MixPath Supernet

基于上述实验观察结果,本文使用SBN来搜索多路径超网,命名为MixPath超网。在One-shot训练后需要使用超网来评估子网的性能,因此本文的搜索方法分两阶段进行:使用SBN训练超网然后搜索具有竞争力的模型。
具体而言在训练阶段采用伯努利采样,使得一次可以激活多条路径,他们加起来有一个混合输出,接下来适应一个相应的SBN添加到当前的路径组合中,详细计算过程参见附录B.1部分。

接下来基于进化算法(MSGA-II)进行搜索,搜索目标是最大化分类精度同时最小化损失函数。
此外本文还是用BN校准作为后处理,可以有效的提升排序相关性。

Section IV Experiments

Part 1 Confirmatory Expetiments on NAS-Bench-101

为了证明SBN可以稳定超网训练、提升分类一致性,本文在NAS-Bench-101上进行了测试。但做了一些调整,比如前四个节点用来选择候选路径,每一节点包含3种操作,分别是1x1卷积、3x3卷积和3x3maxpool。所有被选择路径的输出会被加和然后作为第五个节点的输入,然后再使用SBN。Fig 6展示了设计的cell的具体结构。
在这里插入图片描述在这里插入图片描述

为了进一步分析本文的排序性能,并且探究SBN的影响,还进行了对比实验,分别使用原始的BN和本文的SBN。
超网训练100epoch然后随机采样70个模型计算在NAS-Bench-101上的top-1精度,从而获得肯德尔Tao指标,结果参见Table 1和Fig 6.

可以看到BN后校准可以进一步提升Kendall Tao指标。当M=4时及时不使用后校准,SBN的排序相关性仍然优于原始的BN。因此本文已经通过实验验证了SBN的有效性,接下来将要在CIFAR-10和ImageNet上进行搜索。

Part 2 Search on CIFAR-10

本文首先在CIFAR-10上进行实验,搜索空间S1包含12个invertedbottleneck,每个bottleneck包含4种卷积核(3,5,7,9),2种扩展率(3,6)。因此搜索空间大小为:


m = 1时 8^12



m = 4时 8^ 12 +8^ 12+8^ 12+2^12




超网在CIFAR-10数据集上训练200个epoch直至完全收敛,batch_size=96 优化器为SGD
训练时间为 6 GPU hours 1 V100,
Table 2展示了与目前SOTA模型的一些对比,可以看到搜索到的MixPath-c在CIFAR-10上的精度为97.4%,搜索到的结构如Fig 7所示。



在这里插入图片描述

在这里插入图片描述

Part 3 Search on ImageNet

基于Inverted bottleneck block是一种常用的搜索空间,本文还在MNASNet的搜索空间中对ImnageNet进行了无代理搜索,设置固定的扩展率,搜索各种深度卷积的组合,共18层,搜索空间称之为S3,在实际操作中将深度卷积的通道划分为4组,每一组的卷积核从(3,5,7,9)中进行搜索,m=1,2分别对应搜索空间S3和S2.
MixPath -A从S3中帕累托采样得到,在ImageNet上达到了76.9%的分类精度,MixPath-B参数量更少,但是精度更高可以看到广泛使用了较大的卷积核(60% 5x5 22% 7x7),3x3卷积核主要与较大的卷积核并行使用,来进行精度和FLOPs的权衡。本文认为精度的提升主要得益于多个分支的特征聚合,Fig 7也详细展示了两种网络的具体结构。

Part 4 Transferring to CIFAR-10 and Object Detection

本文还验证了MixPath迁移到CIFAR-10上的性能,结果展示在Table 2,可以看到本文的MixPath-B仅有377M FLOPs达到了98.2%的精度。
Table 4则是COCO目标检测数据集的对比结果。

在这里插入图片描述

在这里插入图片描述

Part 5 Ablation Study

不同策略下的超网排序性能
本文首先研究了使用SBN对超网的排序性能的影响,实验设置m=3,并取3种seed的结果,随机抽样70个子网络计算kendall Tau

case 1:SuperNet with and without SBN

结果参见Fig 5,对于不适应SBN训练的超网其kendall Tao远低于使用SBN训练的超网,并且SBN在辅助后校准后性能提升的更多。

case 2:Linear number of SBNs vs Exponential


本文通过理论分析证实了线性数目的SBN可以匹配所有可激活路径的综合,从Tabel 5中可以看出linear SBN+BN校准性能最好,如果不用校准则是指数SBN性能最好、
主要是应为线性SBN使用了0阶条件下的近似,指数SBN会更准确,因为确实是计算了每一种组合的统计数据,因此统计的γ,β分布也较为广泛,BN很难拟合他们,因此导致排名一致性有所下降。
本文选择使用BN校准的线性SBN。
在这里插入图片描述

case 3:One-shot Accuracy Distriobution of Candidate Models vs wrt M


本文设置m=1,2,3,4来研究SBN的小姑,其他设置保持不变,
m=1代表的是单路径搜索
可以看到对于多路径的情况如果不使用SBN将会导致预测性能和实际性能存在较大差距,说明不使用SBN的超网严重低估了大部分子网的性能。



case 4:随机搜索 vs 进化搜索




本文还对比了两种搜索策略,结果参见Fig 9,可以看到进化搜索的NSGA-II有明显优势,搜索结果精度更高,乘累加操作更少。



在这里插入图片描述
在这里插入图片描述

Part 6 Discussions

1.为什么SBN能够稳定超网训练,提升排名一致性
?
本文已经验证了较高的余弦相似度不是保证多路径网络训练稳定的唯一因素,更重要的是确保多路径的特征分布一致性。而单一BN无法捕获这种统计数据的变化,并且会干扰训练,
使用SBN可以跟踪各种分布,消除了这种训练的不稳定性,因此对超网可以进行更好的训练,这样也能为每个子网提佛那个更合适的权重,从而更好的保证每种子网的真正权重参数。
2.为什么SBN加上BN后校准可以进一步提升排名一致性?


根据3.2节的理论分析,多路径的特征分布会是单路径的倍数,参见Fig 5表示的,但并不是所有的参数都严格遵循这种关系,使用BN后校准可以重新调整输入的均值和方差,来拟合学习的参数,这一定程度上弥补了对超网的训练不足。
并且SBN和BN后校准相互独立,都可以用来提升排名一致性。

Section V Conclusion

本文提出了一种统一的一次性多路径搜索方法,弥补了one-shot和多路径搜索空间中存在的问题。现在的单路径搜索可以作为本文的一种特例,本文借助SBN可以有效捕获不同路径组合导致的特征分布变化问题,成功的解决了常规多路径搜索的两大痛点:训练不稳定和排名一致性差的问题。
此外利用不同路径特征组合后的相似性可以将所需SBN的数目减少到m种,与可激活路径数目抑制。
在NAS-Bench-101上的实验结果表明本文的方法可以显著提升one-shot超网的排名一致性,并且搜索结果再ImageNet上达到了SOTA,并且可以迁移到CIFAR-10数据集和COCO目标检测任务中。




未来本文将进一步探索如何提升超网的评价性能,并且对本文的权重共享和排名性能提供更加深入的理论分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值