阅读文献:LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference

LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference

1.四个问题
要解决什么问题
在高速状态下,平衡图像分类方法的精度和效率
用什么方法解决
提出一种网络模型LeViT方法,在ViT模型基础上,引入卷积模块而不是学习类卷积特征的转换器组件,用特征金字塔替换Transformer中用以的结构(类似LeNet架构)

  • 本文的贡献是允许 ViT 模型在宽度和空间分辨率方面缩小的技术:
  • 使用注意力作为下采样机制的多级转换器架构;
  • 一个计算效率高的补丁描述符,它减少了第一层中的特征数量;
  • 一种学习的、每头平移不变的注意力偏差,取代了 ViT 的位置嵌入;
  • 重新设计的 Attention-MLP 模块,可提高给定计算时间的网络容量

效果如何
在速度或精度权衡方面强于现有的方法,与用于数据中心或手机特征提取的其他高效神经网络相比,LeViT 在可比精度下快 1.5 到 5 倍。

还存在什么问题
没有进行试验,没有证明任何有效性,也没有发现问题

论文简介
摘要: 我们设计了一系列图像分类架构,在高速状态下优化精度和效率之间的权衡。 我们的工作利用了基于注意力的架构的最新发现,这些架构在高度并行的处理硬件上具有竞争力。我们重新审视了大量关于卷积神经网络的文献中的原理,将它们应用于转换器,特别是分辨率降低的激活图。我们还介绍了注意力偏差,这是一种在视觉转换器中整合位置信息的新方法。
因此,我们提出了 LeVIT:一种用于快速推理图像分类的混合神经网络。我们在不同的硬件平台上考虑不同的效率衡量标准,以最好地反映广泛的应用场景。我们广泛的实验凭经验验证了我们的技术选择,并表明它们适用于大多数架构。总体而言,LeViT 在速度/精度权衡方面明显优于现有的 convnets 和视觉转换器。例如,在 80% ImageNet top-1 准确率下,LeViT 在 CPU 上比 EfficientNet 快 5 倍。我们在https://github.com/facebookresearch/LeViT 发布代码

网络结构:
在这里插入图片描述
LeViT在transformer架构中集成了ResNet stage。在各个stage中,该体系结构类似于一个visual transformer:一个带有交替MLP和激活块的残差模块。下面是注意块的修改。
在这里插入图片描述

实验结果:

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值