#今日论文推荐# NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理,精度却超越ResNet50

#今日论文推荐# NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理,精度却超越ResNet50

设计精确、高效的Vision Transformers一直依赖都是一项重要而富有挑战性的任务。Supernet-based one-shot神经体系结构搜索(NAS)可以实现快速的体系结构优化,并在CNN上取得了最新的结果。然而,直接应用NAS来优化ViT会带来比较差的性能,甚至比单独训练ViT更差。在这项工作中,作者观察到性能较差是由于梯度冲突所导致的:不同Sub-Networks的梯度与SuperNet的梯度冲突在ViTs中比在CNN中更严重,这导致训练的早期饱和和较差的收敛。
为了缓解这个问题,本文提出了一系列的技术,包括梯度投影算法Switchable scaling layer以及简化的数据增强正则化训练配置。该技术显著提高了所有Sub-Networks的收敛性和性能。
作者将其设计的Hybrid ViT模型家族,称为NASViT,在ImageNet上在200M到800M FLOPs情况下分别达到了78.2%和81.8%的Top-1精度,并优于所有现有的CNNViT,包括AlphaNetLeViT。当应用到下游任务语义分割时,NASViTs在Cityscape和ADE20K数据集上的表现也优于以前的Backbone,在5G FLOPs的情况,mIoU分别实现了73.2%和37.9%。

论文题目:NASViT: Neural Architecture Search for Efficient Vision Transformers with Gradient Conflict aware Supernet Training
详细解读:https://www.aminer.cn/research_report/6268aace7cb68b460fa9ea20?download=falseicon-default.png?t=M3K6https://www.aminer.cn/research_report/6268aace7cb68b460fa9ea20?download=false
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值