#今日论文推荐# 解锁CNN和Transformer正确结合方法，字节跳动提出有效的下一代视觉Transformer

最新推荐文章于 2024-05-14 21:29:18 发布

wwwsxn

最新推荐文章于 2024-05-14 21:29:18 发布

阅读量226

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉人工智能

原文链接：https://www.aminer.cn/research_report/62da21497cb68b460ff119e5

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# 解锁CNN和Transformer正确结合方法，字节跳动提出有效的下一代视觉Transformer

来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer，即 Next-ViT。Next-ViT 能像 CNN 一样快速推断，并有 ViT 一样强大的性能。
由于复杂的注意力机制和模型设计，大多数现有的视觉 Transformer（ViT）在现实的工业部署场景中不能像卷积神经网络（CNN）那样高效地执行。这就带来了一个问题：视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大？
近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题，但这些工作的整体性能远不能令人满意。基于此，来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看，Next-ViT 的性能可以媲美优秀的 CNN 和 ViT。

Next-ViT 的研究团队通过开发新型的卷积块（NCB）和 Transformer 块（NTB），部署了友好的机制来捕获局部和全局信息。然后，该研究提出了一种新型混合策略 NHS，旨在以高效的混合范式堆叠 NCB 和 NTB，从而提高各种下游任务的性能。
大量实验表明，Next-ViT 在各种视觉任务的延迟 / 准确性权衡方面明显优于现有的 CNN、ViT 和 CNN-Transformer 混合架构。在 TensorRT 上，Next-ViT 与 ResNet 相比，在 COCO 检测任务上高出 5.4 mAP（40.4 VS 45.8），在 ADE20K 分割上高出 8.2% mIoU（38.8% VS 47.0%）。同时，Next-ViT 达到了与 CSWin 相当的性能，并且推理速度提高了 3.6 倍。在 CoreML 上，Next-ViT 在 COCO 检测任务上比 EfficientFormer 高出 4.6 mAP（42.6 VS 47.2），在 ADE20K 分割上高出 3.5% mIoU（从 45.2% 到 48.7%）。

论文题目：Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios
详细解读：https://www.aminer.cn/research_report/62da21497cb68b460ff119e5https://www.aminer.cn/research_report/62da21497cb68b460ff119e5
AMiner链接：https://www.aminer.cn/?f=cs