#今日论文推荐# NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理,精度却超越ResNet50
设计精确、高效的Vision Transformers
一直依赖都是一项重要而富有挑战性的任务。Supernet-based one-shot
神经体系结构搜索(NAS)可以实现快速的体系结构优化,并在CNN
上取得了最新的结果。然而,直接应用NAS
来优化ViT
会带来比较差的性能,甚至比单独训练ViT
更差。在这项工作中,作者观察到性能较差是由于梯度冲突所导致的:不同Sub-Networks
的梯度与SuperNet
的梯度冲突在ViTs
中比在CNN
中更严重,这导致训练的早期饱和和较差的收敛。
为了缓解这个问题,本文提出了一系列的技术,包括梯度投影算法
、Switchable scaling layer
以及简化的数据增强
和正则化
训练配置。该技术显著提高了所有Sub-Networks
的收敛性和性能。
作者将其设计的Hybrid ViT
模型家族,称为NASViT
,在ImageNet上在200M到800M FLOPs情况下分别达到了78.2%和81.8%的Top-1精度,并优于所有现有的CNN
和ViT
,包括AlphaNet
和LeViT
。当应用到下游任务语义分割时,NASViTs
在Cityscape和ADE20K数据集上的表现也优于以前的Backbone,在5G FLOPs的情况,mIoU分别实现了73.2%和37.9%。
论文题目:NASViT: Neural Architecture Search for Efficient Vision Transformers with Gradient Conflict aware Supernet Training
详细解读:https://www.aminer.cn/research_report/6268aace7cb68b460fa9ea20?download=falsehttps://www.aminer.cn/research_report/6268aace7cb68b460fa9ea20?download=false
AMiner链接:https://www.aminer.cn/?f=cs