[论文评析]ArXiv,2021, CrossFormer技术分析

最新推荐文章于 2024-08-22 21:04:31 发布

MasterQKK 被注册

最新推荐文章于 2024-08-22 21:04:31 发布

阅读量641

点赞数

分类专栏： Deep learning 文章标签：人工智能

本文链接：https://blog.csdn.net/QKK612501/article/details/119454867

版权

Deep learning 专栏收录该内容

43 篇文章 11 订阅

订阅专栏

ArXiv,2021, CrossFormer技术分析

动机
解决思路
CEL
LSDA
DBP
CrossFormer
总结
Refernece

动机

当前的Vision Transformer在进行Attention时并没有考虑特征的多尺度信息，而考虑多尺度特征信息在CV中非常重要。

Existing methods没有考虑的原因：(1) 在CV这块，Sequence of embeddings一般是通过将Figure划分为相同尺寸的Patchs来产生的，换句话说，每一层的Feature的尺度是单一的。(2) 在Attention计算中，相邻Embedding的计算通常会进行合并操作，这样引来的问题是：即使两个embeddings的feature的尺度scale不同，合并操作本身也会牺牲小尺度(fine grained)特征。

Motivating examples：
在这里插入图片描述
如图展示的是两个Embeddings的不同尺度的representations, 可以看到：仅从小尺度的representation来看，很难判断这两个embeddings之间的关系，因此很难在这两个Embeddings之间建立依赖。相反，大尺度的representation可以提供丰富的语义信息来为这二者之间建立关联，这说明了考虑多尺度特征的重要性。

解决思路

为了解决上述问题，作者从Embedding操作和Attention操作分别着手，提出了所谓的Cross-scale Embedding layer (CEL)和Long-Short Distance Attention (LSDA), 其中CEL是LSDA的前置操作，作用是通过考虑多尺度的patches来构建Embedding, LSDA通过两个模块SDA、LDA来分别Capture 近邻位置的embeddings间、距离远embeddings间的依赖关系。
此外，作者改进了 relative position bias （RBP）提出所谓的dynamic position bias （DBP），从而克服了原始RBP 输入 image/group大小固定这一限制。

CEL

在这里插入图片描述
简单来说， CEL就是多尺度卷积再聚合。如图，输入Figure同一中心位置除有4个不同scale的patches, 对这四个patches分别进行投影然后Concat即可得到最终的embedding, 每个投影操作对应一个Convolution操作。换句话说，对每个中心位置，用不同尺度的卷积核分别与该中心位置的不同尺度的patches进行卷积，然后合并Concat 。其中不同卷积的Stride相同，大卷积核的维度设置的比较小， $D = 128$ ，因此最终聚合的维度为 $\frac{D}{2}+\frac{D}{4}+\frac{D}{8}+\frac{D}{8}=128$ 。

形式化定义：
假设输入 $\in R^{H {\rm x} W {\rm x} D}$ ,
$O_{i}(X)=Conv_{i}(X), i \in \{1,..,4\}$ ,
$SEL(X)=Concat(O_{1}(X), O_{2}(X), O_{3}(X), O_{4}(X))$
最终 $\in R^{H^{'} {\rm x} W^{'} {\rm x} d^{'}}$ ，

LSDA

LSDA包含Reshape， Attention with DBP, reverse Reshape三部分，其中Reshape的作用是把大的Feature map变形为一个个小的patches, 然后对每个flattened patch分别进行attention，attention的本质是对patch内的信息进行重组，最后在通过reverse Reshape还原到原始的尺寸。
在这里插入图片描述

Reshape

假设输入Feature map的尺寸为 $\in R^{S {\rm x} S }$ , 按照惯例，LSDA也是把feature map划分一个个patches，然后分别进行Attention。具体来说:
对于SDA， $X$ 被划分为尺寸为 $G{\rm x} G$ 的小方格，每个小方格包含相邻的 $G{\rm x} G$ 个Embedding pixel的值, 这个过程记为Reshape, 形式化定义为：
$X^{'}=Reshape(X) \in R^{(\frac{S}{G} \cdot \frac{S}{G}) {\rm x} G {\rm x} G}$ ,

对于LDA, 设置采样间隔 $I$ ， $I$ 实际上相当于控制分辨率的参数，然后对某一位置间隔 $T$ 进行采样，最终会得到尺寸为 ${\rm x} G$ 的patch, patch中任意连个相邻元素的间隔为 $T$ , $G=\frac{S}{I}$ , 这个Reshape过程与SDA中的Reshape过程不同，但卒子红输出的尺寸完全相同。

Attention计算

相对位置偏差（RPB）通过向嵌入物的注意添加偏差来表示嵌入物的相对位置，如下：
$Attention=Softmax(\frac{Q \cdot K^{T}}{\sqrt{d}}+B)V$
其中 $\in R^{G^{2} {\rm x} d}$ , $\in R^{G^{2} {\rm x} G^{2}}$ ,
$B_{i,j}=DBP(\bigtriangleup x_{i,j}, \bigtriangleup y_{i,j})$

伪代码

在这里插入图片描述
代码很直观。

DBP

与RBP不同，作者提出了一个基于MLP的模块，即DPB来动态生成相对位置偏差， DBP示意图如下：
在这里插入图片描述
其中 $\bigtriangleup x_{i,j}, \bigtriangleup y_{i,j}$ 表示第 $i, j$ 个嵌入embeddings之间的坐标距离，

CrossFormer

在这里插入图片描述
CrossFormer的结构如上图所示，CrossFormer有多个Stage堆砌组成，每个Stage由一个CEL以及多个CrossFormer Block组成， CEL位于每个Stage之前，其主要使得作用是减小spatial size, 增大channel dimension, 因此整个网络类似空间金字塔结构，每个Stage中的多个CrossFormer Block以SDA-LDA交替的方式进行堆砌。