#今日论文推荐# NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理，精度却超越ResNet50

最新推荐文章于 2024-03-14 16:59:06 发布

wwwsxn

最新推荐文章于 2024-03-14 16:59:06 发布

阅读量379

点赞数

分类专栏：深度学习文章标签：数据结构

原文链接：https://www.aminer.cn/research_report/6268aace7cb68b460fa9ea20?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理，精度却超越ResNet50

设计精确、高效的Vision Transformers一直依赖都是一项重要而富有挑战性的任务。Supernet-based one-shot神经体系结构搜索(NAS)可以实现快速的体系结构优化，并在CNN上取得了最新的结果。然而，直接应用NAS来优化ViT会带来比较差的性能，甚至比单独训练ViT更差。在这项工作中，作者观察到性能较差是由于梯度冲突所导致的:不同Sub-Networks的梯度与SuperNet的梯度冲突在ViTs中比在CNN中更严重，这导致训练的早期饱和和较差的收敛。
为了缓解这个问题，本文提出了一系列的技术，包括梯度投影算法、Switchable scaling layer以及简化的数据增强和正则化训练配置。该技术显著提高了所有Sub-Networks的收敛性和性能。
作者将其设计的Hybrid ViT模型家族，称为NASViT，在ImageNet上在200M到800M FLOPs情况下分别达到了78.2%和81.8%的Top-1精度，并优于所有现有的CNN和ViT，包括AlphaNet和LeViT。当应用到下游任务语义分割时，NASViTs在Cityscape和ADE20K数据集上的表现也优于以前的Backbone，在5G FLOPs的情况，mIoU分别实现了73.2%和37.9%。

论文题目：NASViT: Neural Architecture Search for Efficient Vision Transformers with Gradient Conflict aware Supernet Training
详细解读：https://www.aminer.cn/research_report/6268aace7cb68b460fa9ea20?download=falsehttps://www.aminer.cn/research_report/6268aace7cb68b460fa9ea20?download=false
AMiner链接：https://www.aminer.cn/?f=cs

wwwsxn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
#今日论文推荐# NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理，精度却超越ResNet50

#今日论文推荐# NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理，精度却超越ResNet50设计精确、高效的Vision Transformers一直依赖都是一项重要而富有挑战性的任务。Supernet-based one-shot神经体系结构搜索(NAS)可以实现快速的体系结构优化，并在CNN上取得了最新的结果。然而，直接应用NAS来优化ViT会带来比较差的性能，甚至比单独训练ViT更差。在这项工作中，作者观察到性能较差是由于梯度冲突所导致的:不同Sub-Networks的
复制链接

扫一扫

专栏目录