[论文评析] ArXiv-2021,Pyramid Vision Transformer A Versatile Backbone for Dense Prediction without Convo

最新推荐文章于 2024-05-24 14:01:26 发布

MasterQKK 被注册

最新推荐文章于 2024-05-24 14:01:26 发布

阅读量696

点赞数 1

分类专栏： Deep learning 文章标签：深度学习

本文链接：https://blog.csdn.net/QKK612501/article/details/119608615

版权

Deep learning 专栏收录该内容

43 篇文章 11 订阅

订阅专栏

Pyramid Vision Transformer A Versatile Backbone for Dense Prediction without Convolutions

基础知识
动机
贡献
PVT architecture
Patch Embedding
Spatial reduction attention (SRA)
点评
总结
Reference

论文名称：Pyramid Vision Transformer A Versatile Backbone for Dense Prediction without Convolutions
作者单位：
1 Nanjing University
2 The University of Hong Kong
3 Nanjing University of Science and Technology
4 IIAI
5 SenseTime Research

基础知识

1.常见的CNN arch. vs. vision transformer (ViT) arch. vs. pyramid ViT.
在这里插入图片描述如图(a), 经典的CNN arch通过stack CNN 层来学习一个层次化的feature representations, 并且随着层数的增加，感受野越来越大, channel数越来越大， feature map尺寸越来越小，然后后边连接一到多个特定的任务网络来执行具体的任务;
如图(b), 经典的ViT是一个柱式结构，实际上就是stack transformer block, 为了把NLP中的Transformer用到Vision中，惯用做法是通过网格化把figure转化为sequence of patches，每个patches的尺寸一般为32 x 32, ViT目前主要用于image classification等image-levely预测任务;
如图©，即为所提出的Pyramid Vision Transformer (PVT), 也是首先把figure 转化为Sequence of patches, 从结构来说也是学习一个层次化的representation,只不过基本的building block 已经由 Conv. 替换为 Attention module.
2.
Image-level prediction task：图像级别的预测任务，如 image classification;
Pixel-level dense prediction task: 像素级别的密集预测任务，如 instance/semantic segmentation, object detection/recogniton;

动机

尽管目前ViT已经普遍应用到 image classification 等预测任务，但是将其应用到像素级别的密集预测任务上依然很难, 原因在于：
(1) ViT输出的Feature map 为单一尺度，且分辨率低；
注：尺度单一指的是其尺度没有变化，不像CNN arch那样可以学到层次化的representation, CNN stride也可以控制scale
(2) 直接应用的话memory consumption和computation cost 都是不可接受的；

贡献

1.提出了所谓的Pyramid Vision Transformer (PVT), PVT可以作为各种密集预测任务的backbone。进一步将PVT个DETR结合可以构建端到端的目标检测系统，无需Conv. operation, 无需dense anchors和non-maximum supression 等人工设计成分;
2.在PVT设计中，提出渐进收缩的特征金字塔pyramid结构和所谓的 spatial reduction attention (SRA)使其成功应用于密集预测任务，这两个部件保证PVT可以输出多尺度的高分辨率feature map;
3.作者展示了几种不同配置的PVT, 在各种预测任务上都取得了优于当前最好的结果，如下图
在这里插入图片描述

PVT architecture

在这里插入图片描述
如上图所示， PVT由多个Stage ${Stage_{i}\}_{i=1}^{4}$ 堆砌组成，每个Stage 由一个Patch embedding层和多个building blocks (即图中的Transformer Encoder)组成, 其中:

Patch embedding的作用是将上一个Stage的输出转化为Sequence of tokens以为后面的attention做准备, 每个tokens实际上对应一个patch, 直观地看是见笑了spatial size。
每个building block (即attention module) 实际上就是在sequence of tokens上计算全局global的attention, 而CNN 总是在提取局部local的pattern.

与Transformer类似，每个building block由一个attention module (即SRA)和一个Feed Forward层组成。

假设输入 $\in R^{H {\rm x} W {\rm x} 3}$ , 经过第一个Stage的输出为 $F_{1} \in R^{\frac{H}{4} {\rm x} \frac{W}{4} {\rm x} C_{1}}$ , 经过第二，三，四个Stage的分别 $F_{2} \in R^{\frac{H}{8} {\rm x} \frac{W}{8} {\rm x} C_{2}}$ , $F_{3} \in R^{\frac{H}{16} {\rm x} \frac{W}{16} {\rm x} C_{3}}$ , $F_{4} \in R^{\frac{H}{32} {\rm x} \frac{W}{32} {\rm x} C_{4}}$ , 这样一来， ${F_{i}\}_{1}^{4}$ 就形成了一个层次化的feature representation,

下面介绍PVT中的几个关键部分：

Patch Embedding

PVT实际上就是在利用Patch Embedding来控制feature map的尺度，通过在每个Stage中加上一层Patch Embedding 从而渐进式地得到一个层次化的多尺度Feature map.

Patch Embedding操作首先把figure分割为多个patches ，然后对每个Patch进行Linear Projection即可。 形式化定义：
假设第 $i$ 个Stage的的patch size 为 $P_{i}$ , 对于输入 $F_{i-1} \in R^{H_{i-1} {\rm x} W_{i-1} {\rm x} C_{i-1}}$ ,
$\hat{F}_{i-1}=Reshape(F_{i-1})$
$PE=LP(\hat{F}_{i-1})$
其中 $\hat{F}_{i-1} \in R^{\frac{H_{i-1}W_{i-1}}{P_{i}^{2}} \cdot (P_{i} {\rm} P_{i} {\rm x} C_{i-1} )}$ , $\in R^{\frac{H_{i-1}W_{i-1}}{P_{i}^{2}} {\rm x} C_{i}}$
Reshape表示网格化figure为patches, LP表示逐Patch的Linear projection。

Spatial reduction attention (SRA)

所谓的SRA实际上就是在计算Attention之前对Flatten之前的Key和Value进行一个所谓的Spatial Reduciton以减小Spatial size, 如下图所示：
在这里插入图片描述
形式化定义：
$SRA(Q, K, V)=Concat(head_{1}, ..., head_{N_{i}})W^{o}$
$head_{j}=Attention(QW_{j}^{Q}, SR(K)W_{j}^{K}, SR(V)W_{j}^{V})$
$Z)=Softmax(\frac{X^{Y}}{\sqrt{d_{model}}})Z$
其中， $W_{j}^{Q},W_{j}^{K},W_{j}^{V} \in R^{C_{i} {\rm x} d_{model}}$ ,

$SR(X)=Norm(Reshape(X, R_{i})W^{s})$

可以看到SRA与Multi-head Attention (MHA)相比， 唯一区别在于对Key和Value进行了SR操作，
时间复杂度分析：
SR操作将Key和Value flatten之后的Vector长度减小为原来的 $\frac{1}{R_{i}^{2}}$ , 由于只对Key和Value进行了SR操作，没有对Q进行SR操作，因此最终时间复杂度减小为原来的 $\frac{1}{R_{i}^{2}}$ .

下面介绍SR的具体实现：
输入 $\in R^{(H_{i} {W_{i}) {\rm x} C_{i}}}$ 表示已经在Spatial 方向进行了Flatten操作， Reshape操作之后的尺寸为 $R^{\frac{H_{i}W_{i}}{R_{i}^{2}} {\rm x} R_{i}^{2}C_{i} }$ , 然后再经过一个Linear Projection, transform matrix为 $W^{s} \in R^{(R_{i}^{2}C_{i}) {\rm x} C_{i}}$ , 因此最终 $\in R^{\frac{H_{i}W_{i}}{R_{i}^{2}} {\rm x} C_{i} }$ . 从最终的效果看，有点类似Pooling操作。

Over.

点评

怎么说呢，
1.Feature Pyramid architecture 这个东西早就已经设Vision Transformer这块的标准配置了，就像空气一样，例如Focal self-attention， Cross Former 等等，不在此一一列举，不清楚的人还以为是这篇论文的首创。
2. SRA模块
仅仅只是对MHA输入参数Key和Value的尺寸进行了缩减，仅此而已。