【ARXIV2207】Next-ViT: Next Generation Vision Transformer for Efficient Deployment

计算机科研狗@OUC

已于 2022-09-06 07:26:35 修改

阅读量757

点赞数 1

分类专栏：论文推介文章标签： transformer 深度学习人工智能

于 2022-09-03 14:47:18 首次发布

本文链接：https://blog.csdn.net/gaopursuit/article/details/126677302

版权

论文推介专栏收录该内容

76 篇文章 14 订阅

订阅专栏

请添加图片描述

【ARXIV2207】Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

论文链接：https://arxiv.org/abs/2207.05501

代码链接：https://github.com/bytedance/Next-ViT

这是一个轻量化 Transformer 的工作，作者提出了可高效部署的 Next generation vision transformer，主要包括三个重要组件：next convolution block （NCB）, next transformer block （NTB）, next hybrid strategy。名字都的都非常有趣哈 ~~~

Next-VIT 的整体框架如下图所示，是典型的四阶段网络。第一阶段只有 NCB，后面三个阶段，多个NCB里添加了一个NTB。

请添加图片描述

NCB 和 NTB

**1、next convolution block （NCB）：**NCB 由注意力和 MLP 组成。NCB的注意力非常简单，就是3X3的组卷积，如下图所示。分组卷积也类似于Transformer的多头机制。

2、Next Transformer Block (NTB)： 卷积主要获取局部信息，还需要使用获取全局信息。作者指出，最近的一些工作表明，Transformer block会在一定程度上影响局部纹理等高频信息，因此，作者开发了NTB来提取多频信息。具体步骤如下图所示：（1）首先使用1X1卷积对通道降维（压缩比为r），然后进行注意力计算；（2）注意力计算使用的是PVT的做法，对K和V进行下采样降低计算量；（3）加入一个NCB中的分组卷积，压缩比为1-r，结果和注意力的结果拼接。

NCB和NTB模块最后都有一个MLP，都是由两层1X1卷积的结构，如下图所示。

NCB 和 NTB 混合策略

此外，作者还特别强调了当前很多方法发现，浅层使用CNN，深层使用 Transformer 可以提升分类性能，因为分类只用最后一层的结果。但是作者发现，这些策略在分割和检测上性能有限，因为分割和检测需要同时使用各个阶段的特征，但是浅层特征缺少全局信息，这会影响性能。

为了解决这一问题，作者提出一种新的混合策略（该策略与传统混策略的对比如下图所示）。每个阶段依次堆叠N个NCB和1个NTB。NTB放在每个阶段的末尾，可以更好的学习浅层中的全局表示。作者进行了一系列实验来证明该策略的有效性。
请添加图片描述

因为网络是一个四阶段结构，作者做了大量实验来寻找最优的网络结构。CCCC表示四个阶段都使用卷积。结合来看，CHHH能够取得最优的性能。此外，HHHH的性能不佳，也说明把Transformer Block 放置在第1阶段会影响网络性能。
在这里插入图片描述
此外，作者来做实验，验证了N的大小对于性能的影响。如下表所示，在第3阶段构建了具有不同 N 配置的模型。为了建立具有相似延迟的模型以进行公平比较，在 N 的值较小时堆叠 L 组 (NCB × N + NTB × 1) 模式。有趣的是，作者发现 (NCB × N + NTB × 1) × L 模式中的堆栈 NCB 和 NTB 与 (NCB × N + NTB × 1) 模式相比获得了更好的模型性能。

在这里插入图片描述
作者还做了大量其他实验，具体可以参考论文，这里不过多介绍了。

计算机科研狗@OUC

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
【ARXIV2207】Next-ViT: Next Generation Vision Transformer for Efficient Deployment

论文链接：https://arxiv.org/abs/2207.05501代码链接：https://github.com/bytedance/Next-ViT这是一个轻量化 Transformer 的工作，作者提出了可高效部署的 Next generation vision transformer，主要包括三个重要组件：next convolution block （NCB）, next transformer block （NTB）, next hybrid strategy。
复制链接

扫一扫

专栏目录