Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
https://github.com/whai362/PVT
ABSTRACT:
ViT低分辨率输出,高计算量,高存储。
PVT实现高分辨率输出,不使用卷积的条件下融合CNN和transformer的优点,实现像素级的预测。希望PVT不止是在图像分类任务上,也可以作为一种通用模型实现dense prediction 如目标检测,语义实例分割。
transformer在NLP的成功推动在CV的探索,相关工作有用decoder作CNN vackbone 的task-specific head或者将注意力机制引入CNN中,但是 exploring a clean and convolution-free Transformer backbone to address dense prediction tasks in computer vision is rarely studied.
PVT优点:
(1)相比于传统CNN的局部感受野,随layer加深而增大,PVT一直保持全局感受野
(2)用于dense prediction任务(像素级别的分类和回归),目标检测要求高分辨率和多规格特征映射。
(3)可以融合PVT和decoder实现其他任务
ViT存在的问题是,(1)输入和输出的尺寸相同,因而也就无法处理较大尺寸输入的图片。(2)低分辨率输出,高计算量,高存储。
卷积滤波器的权重在训练后通常是固定的,因此其动态适应输入的变化是不灵活的。有人提出了通过自我注意操作来缓解这一问题的方法。非局部块non-n