[论文评析] ArXiv,2021, Focal Self Attention技术分析

最新推荐文章于 2022-11-28 19:41:04 发布

MasterQKK 被注册

最新推荐文章于 2022-11-28 19:41:04 发布

阅读量708

点赞数 1

分类专栏： Deep learning 文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/QKK612501/article/details/119177285

版权

Deep learning 专栏收录该内容

43 篇文章 11 订阅

订阅专栏

Focal Self Attention技术分析

动机
Focal self Attention
Focal Transformer
总结
Reference

动机

通过整合fine-grained local attention和coarse-grained golbal attention,来克服各自的问题。

Focal self Attention

在这里插入图片描述
所谓的Focal self attention简单来说就是对距离Query越近的区域进行细粒度fine granulity的attention, 对距离Query越远的区域进行粗粒度的attention，通过调整粒度的级别最终会得到一个层次化的feature maps, 然后把这些feature map经过Flatten、Concatenation等操作转化为Vector, 然后对Vector分别进行Linear projection得到 Key和Value, 然后进行常规的Scaled Dot-Product Attention (SDPA)即可。

基本概念

为了控制粒度，作者引入了三个基本定义，分别为：
1.Focal level $L$ : 用于进行Focal self attention的粒度级别的数量；
2.Focal Window size $s_{w}^{l}$ : 第 $l$ 个粒度级别上用于提取tokens的sub-window的尺寸；
3.Focal Region size $s_{r}^{l}$ : 第 $l$ 个粒度级别上水平/垂直方向上包含的sub-window的数量；

流程

1.网格化
假设Feature map的原始尺寸为 $[H, W, d]$ , 常规做法是对每个token都要进行一次attention, time和memory开销太大，因此通过网格化将feature map分成一个个的sub windows，然后逐window进行attention, 即所谓的window-wise self attention。
假设sub window的尺寸为 $s_{p}, s_{p}]$ , 则总的windows数量为 $\frac{HW}{s_{p}s_{p}}$ , 记网格化后的尺寸为 $H/s_{p} \cdot W/s_{p} \cdot d]$ .
注：通过设置不同的大小的 $s_{p}$ (实际上就是 $s_{w}^{l}$ ), 可以得到不同粒度级别的surroundings.
2. 子窗口池化
假设输入： $\in R^{H \cdot M \cdot d}$ ,
对于第 $l$ 个粒度级别，其网格化操作形式化定义为：
$\hat{X}=Reshape(X) \in R^{s_{w}^{l} {\rm x} s_{w}^{l} {\rm} (H/s_{w}^{l} \cdot W/s_{w}^{l} \cdot d)}$ ,
然后池化操作形式化为：
$x^{l}=f_{p}^{l} \in R^{H/s_{w}^{l} \cdot W/s_{w}^{l} \cdot d}$ .
然后遍历 $\in {1,2,...,h}$ ，最终得到输入feature map的层次化surroundings： ${x^{l}\}_{l=1}^{h}$ .
3.聚合操作
$x^{l}$ 为feature map，首先通过Flatten操作将其转化为Vector, 然后再把 $h$ 个这样的Vector进行Concat操作，最终得到的tokens向量为 $x_{total} \in R^{s {\rm x} d}$ , 其中 $s=\sum_{l=1}^{h} (s_{w}^{l})^{2}$ .

4.计算Query, Key和Value
通过分别进行Linear projection即可得到Query, Key和Value，形式化定义如下：
$Q=f_{q}(x^{1})$
$K=f_{k}(x_{total})$
$V=f_{v}(x_{total})$

5.Attention计算
对于位于第 $i$ 个sub-window $Q_{i} \in R^{s_{p} {\cdot s_{p} \cdot d}}$ 的Query，其对应的Key和Value分别记为 $K_{i} \in R^{s \cdot d}$ , $V_{i} \in R^{s \cdot d}$ .
计算公式如下：
$Attention(Q_{i}, K_{i}, V_{i})=softmax(\frac{Q_{i} K_{i}^{T}}{\sqrt{d}+B}) V_{i}$
最终输出的尺寸依然为 $R^{s_{p} {\cdot s_{p} \cdot d}}$
然后遍历 $\in\{1,2,.., H/s_{p} \cdot W/s_{p}\}$ 重复上述操作即可。

时间复杂度分析

网格化实际上就是对数据进行Reshape，假设原始输入 $\in R^{M {\rm x} N {\rm x} d}$
,Reshape之后第 $l$ 层 $\hat{X} \in R^{s_{w}^{l} {\rm x} s_{w}^{l} {\rm x} (\frac{M}{s_{w}^{l}} \cdot \frac{N}{s_{w}^{l}} \cdot d)}$
对其池化的时间复杂度为 $O(s_{w}^{l} \cdot s_{w}^{l} \frac{M}{s_{w}^{l}} \cdot \frac{N}{s_{w}^{l}} \cdot d)=O(M\cdot N \cdot d)$ , 对所有L个层池化的时间复杂度为 $\cdot M\cdot N \cdot d))$ .

每个Query所属sub-window $Q_{i} \in R^{s_{p} {\rm x} s_{p} {\rm x} d}$ , 对应 $K_{i}, V_{i} \in R^{s {\rm x} d}$ , 因此计算Attention的时间复杂度为 $O((s_{p})^{2}\cdot d \cdot s)$ , 共有 $\frac{M}{s_{p}} \cdot \frac{N}{s_{p}}$ 个这样的sub-window, 因此进行Attention总的时间复杂度为 $M\cdot N \cdot d \cdot (\sum_{1}^{L} (s_{r}^{l})^{2})$ 。

因此，总的时间复杂度为： $O(M\cdot N \cdot d \cdot (L + \sum_{l=1}^{L} (s_{r}^{l})^{2}))$ .

点评

1.fine-grained local attention不能抓住global的信息，coarse-grained golbal attention虽然能抓住global information但因为粒度粗，因此，这两种方式实际上都不能发挥出NLP中原始Transformer中attention的建模能力。
focal self attention 实际上正是对这两种attention的整合，因为它既能抓住closet surroundings的fine-grained local信息，同时又能抓住far surroundings的coarse-grained global信息。具体来说， Key和Value的来源不是某个单一粒度级别的tokens, 而是多个粒度级别的层次化的tokens的融合。
2.所谓的focal self attention最核心的东西可以看成是常规scaled dot-product attention的一个前置操作。

与Transformer中MHA的比较

1.Transformer中的MHA处理的是序列，对于长度为n，维度为d的序列 $\in R^{n {\rm x} d_{model}}$ , $\in R^{n {\rm x} d_{k}}$ , 对应 $\in R^{m {\rm x} d_{k}}, V \in R^{m {\rm x} d_{v}}$ , $d_{k}, d_{v}$ 完全取决于Linear projection输出的维度， $m$ 为K-V对的数量；而在focal self attention这里， $Q_{i} \in R^{s_{p} \cdot {s_{p} \cdot d}}$ , 其中 $d$ 为Figure的channel, $s_{p}$ 取决于网格化时设置的每个sub-window的宽度，对应 $K_{i}, V_{i} \in R^{s {\cdot} d}$ , 其中s为所有L层池化结果经Flatten后再Concat的长度。
2.原始Transformer中为MHA, 通过多次Linear projection得到多个子空间，分别进行SDPA再聚合，论文中提到这既可以节省memory，提高efficancy,同时提升泛化能力； focal self attention中用的是网格化方法，Attention是在Window级别，而不是每个Query position, 这减少了memory, 节省了time.

几个疑点

1.论文中Fig.4 与正文中描述略不同，图中是不同level的tokens先concatenation后进行linear projection产生 $K_{i}, V_{i}$ , 文本描述部分是对每个level的分别进行linear projection (即 $f_{k}, f_{v}$ )，然后再concatenation.

2.Fig. 4中Query position所在区域恰好位于Feature map的中心，因此每个level的tokens都是方形，然而当Query position位于边缘时，怎么办？需要做填充吗？从论文中没有看到类似信息。

3. $s_{p}$ , $s_{w}^{l}$ 与 $s_{r}^{l}$ 之间应该满足的关系：
这一点论文中并没有明确说明。
很明显， ${s_{w}^{l}\}_{l=1}^{L}$ 应该都能被 $s_{p}$ 整除，特别的，当 $s_{w}^{l}=1$ 时，粒度级别最细；当 $s_{w}^{l}=s_{p}$ 时，粒度级别最粗。

三者之间的关系， Fig.4中Query所在的蓝色区域周围上下左右包含的尺寸为 $s_{w}^{l} {\rm x} {s_{w}^{l}}$ 的方格的数量都为2, 因此可以很容易得出结论： $s_{r}^{l}=4 + \frac{s_{p}}{s_{w}^{l}}$ .

Focal Transformer

在这里插入图片描述
如图， Focal Transformer包含多个Stage： $\{\rm Stage i\}_{i=1}^{4}$ , 每个 ${\rm Stage i}$ 里面通过Stack相同的building block组成,数量为 $N_{i}$ ，每个building block主要由Focal Self-Attention和Multi-Layer Perceptron 组成，最核心的就是上面提到的Focal self-attention.

可以看到，在每个Stage之前都有一个Patch Embedding (PE)， PE实际上就是一个Convolution层，其中第一层的PE作用是将 $\in R^{M {\rm x} N {\rm x} 3}$ 映射到 $R^{M {\rm x} N {\rm x} d}$ , 然接下来，每个Stage开始之前都会有一个PE将上一个Stage输出的Feature map的Spatial dimension减小为原来的1/2， Channel dimension增大为原来的2倍。

总结

Reference

1.ArXiv, 2021, Focal Self-attention for Local-Global Interactions in Vision Transformers.

MasterQKK 被注册

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
3
评论
[论文评析] ArXiv,2021, Focal Self Attention技术分析

Focal self attention简单来说就是对距离Query越近的区域进行细粒度fine granulity的attention, 对距离Query越远的区域进行粗粒度的attention常规的Scaled Dot-ProductFocal Self-attention for Local-Global Interactions in Vision Transformers时间复杂度分析Focal Self-Attention和Multi-Layer Perceptron
复制链接

扫一扫