ResT: An Efficient Transformer for Visual Recognition

最新推荐文章于 2024-07-26 12:27:49 发布

「已注销」

最新推荐文章于 2024-07-26 12:27:49 发布

阅读量707

点赞数

分类专栏：论文笔记文章标签： transformer 深度学习自然语言处理

本文链接：https://blog.csdn.net/Jeaksun/article/details/125120650

版权

论文笔记专栏收录该内容

59 篇文章 5 订阅

订阅专栏

在这里插入图片描述

REST：一种高效的视觉识别transformer

Abstract

本文提出了一种高效的多尺度视觉转换器REST，它可以作为图像识别的通用主干。与已有的利用标准变换器块来处理固定分辨率的原始图像的Transformer方法不同，本文的方法具有以下优点：(1)构建了一种内存高效的多头自关注算法，它通过简单的深度卷积来压缩内存，并在保持多头多样性的同时投影跨注意头维度的交互作用；(2)位置编码被构造为空间注意，更灵活，可以处理任意大小的输入图像，而不需要内插或微调；(3)不再在每个阶段开始时直接进行标记化tokenization，而是将补丁嵌入为在标记图上跨步的重叠卷积运算堆栈。

REST

Rethinking of Transformer Block

标准的transformer块由MSA和FFN组成，每个子层采用残差连接。
对于token输入: $x\in R^{n\times d_m}$ ，where，n表示空间维度， $d_m$ 表示通道维度
每个transformer的输出为： $y = x^{'} + F F N (L N (x^{'}))$ ，and $x^{'} = x + M S A (L N (x))$

MSA

首先通过将三组投影映射于输入来获取Q，K，V。每个投影由将 $d_m$ 维输入映射到 $d_k$ 维空间的K的线性层(头部)组成，其中 $d_k = \frac{d_m}{k}$ 是头部维度。MSA的计算代价为 $O(2d_mn^2+4d^2_mn)$
在这里插入图片描述
MSA有两个缺点：MSA的计算量与 $d_m$ 或n成平方关系，导致训练和推理的开销很大；MSA中的每个头部只负责嵌入维度的一个子集，这可能会影响网络的性能，特别是每个头部的token嵌入维度较小时。
为了压缩内存，将2D输入token $x\in R^{n\times d_m}$ 眼空间维度重塑为3D token $\overset{\wedge}{x}\in R^{d_m\times h \times w}$ ，然后送到深度卷积运算。在这里插入图片描述

启示

这种注意力的是由NLP引申过去的，那这种方法是不是可以用来解决NLP任务中token序列过长导致复杂度很高的问题呢，可以看看相关的论文降低MSA的复杂度是很有必要的。

「已注销」

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
ResT: An Efficient Transformer for Visual Recognition

本文提出了一种高效的多尺度视觉转换器REST，它可以作为图像识别的通用主干。与已有的利用标准变换器块来处理固定分辨率的原始图像的Transformer方法不同，本文的方法具有以下优点：(1)构建了一种内存高效的多头自关注算法，它通过简单的深度卷积来压缩内存，并在保持多头多样性的同时投影跨注意头维度的交互作用；(2)位置编码被构造为空间注意，更灵活，可以处理任意大小的输入图像，而不需要内插或微调；(3)不再在每个阶段开始时直接进行标记化tokenization，而是将补丁嵌入为在标记图上跨步的重叠卷积运算堆栈
复制链接

扫一扫