[CVPR2021]AttentiveNAS:FaceBook团队提出的Attentive Sampling策略

[CVPR2021]AttentiveNAS

FaceBook团队提出的

Attentive Sampling策略

AttentiveNAS: Improving Neural Architecture Search via Attentive Sampling

论文:https://arxiv.org/pdf/2011.09011.pdf

代码:https://github.com/facebookresearch/AttentiveNAS

论文概述:

本文是FaceBook在CVPR2021发表的一篇论文,提出了Attentive Sampling采样策略,打破了传统的值关注最优的帕累托的思维,关注最优和最差的帕累托两个方面,并取得了当时NAS领域SOTA的效果。

尽管近些年来出现了two-stage的NAS,其将训练过程和搜索过程解耦,在准确率和最终效果都很不错。但是,two-stage的NAS在训练过程中需要对搜索空间采样,这直接影响了最终模型的准确率。具体来说,大部分抽样都采用简单的均匀采样策略,不能保证模型性能的帕累托前沿,可能会错失提高模型精度的机会。另外连续可微的NAS对超参的选择非常敏感(包括随机种子和数据划分的设置),往往需要多次实验才能获得较好的性能。权值共享的网络,直接继承来的权值往往不是最优解,需要从头开始训练,所以会引入额外的计算开销。

为了解决上述问题,本文提出了AttentiveNAS,改进抽样策略,实现更好的帕累托性能。论文还设计了可以高效识别网络帕累托前沿的算法。不用额外对搜索得到的模型进行训练或者后处理也能得到SOTA效果,在ImageNet取得了80.1%的准确率和 491 MFLOPs的结果。

简介

当前NAS最大的挑战来源于两个方面:一是网络规模非常大,二是计算的代价太大。因此,设计一个精确又高效的网络是比较困难的事情。NAS一般将参数训练和网络架构优化分为两个独立阶段:第一阶段通过权值共享对搜索空间中所有可选网络的参数优化,在训练结束时,所有网络同时达到较优的性能。第二阶段利用进化算法等搜索算法,在各种资源约束下找到最优的模型。两阶段的NAS很大程度上依赖于第一阶段的候选网络训练。为了让所有候选网络的性能效果更优,在训练过程中从搜索空间中对候选网络进行采样,然后通过SGD对每个样本进行优化。

现有的采样方法主要是统一采样策略,但是这种策略使训练阶段和搜索阶段不相关。具体来说,搜索阶段会侧重于准确性和推断效率,而训练阶段并不针对二者进行改进,而将每个候选网络视为同等重要。因此网络失去了进一步提升准确率和效率的空间。因此,本文提出了attentiveNAS,回答了两个问题:<

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值