【论文笔记】LeViT: a Vision Transformer in ConvNet’s Clothingfor Faster Inference

来自γ星的赛亚人

已于 2022-04-05 21:52:40 修改

阅读量2.2k

点赞数 2

分类专栏： Vision Transformer 论文笔记文章标签：计算机视觉神经网络深度学习人工智能 transformer

于 2022-04-03 19:45:40 首次发布

本文链接：https://blog.csdn.net/m0_58678659/article/details/123857782

版权

论文笔记同时被 2 个专栏收录

47 篇文章

订阅专栏

Vision Transformer

19 篇文章

订阅专栏

声明：

本人是来自 γ 星球的外星人

为了学习地球的深度学习知识的，好回去建设自己的家乡

每周不定期更新自己的论文精读笔记，中心思想是两个字 --- 易懂

没啥事的兄弟姐妹们，可以和我探讨外星知识哦~

论文题目：

LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference

LeViT：ConvNet 中用于更快推理的 Vision Transformer

论文链接：https://arxiv.org/abs/2104.01136

论文代码：http://https: //github.com/facebookresearch/LeViT

发表时间：2021年5月

Abstract

我们设计了一系列图像分类架构，可优化高速状态下准确性和效率之间的权衡。我们的工作利用了基于注意力的架构的最新发现，这些架构在高度并行的处理硬件上具有竞争力。我们从关于卷积神经网络的大量文献中重新审视原理，将它们应用于 Transformer，特别是分辨率降低的激活图。我们还介绍了注意力偏差，这是一种在 Vision Transformer 中集成位置信息的新方法。

因此，我们提出了 LeVIT：一种用于快速推理图像分类的混合神经网络。我们在不同的硬件平台上考虑不同的效率度量，以最好地反映广泛的应用场景。我们广泛的实验凭经验验证了我们的技术选择，并表明它们适用于大多数架构。总体而言，LeViT 在速度、准确性权衡方面明显优于现有的卷积网络和 Vision Transformer。例如，在 ImageNet top-1 准确率为 80% 时，LeViT 在 CPU 上比 EfficientNet 快 5 倍。