Transformer论文笔记2----借鉴卷积的渐进缩放模型实现金字塔设计用于dense prediction任务

最新推荐文章于 2024-09-13 07:51:07 发布

JaJaJaJaaaa

最新推荐文章于 2024-09-13 07:51:07 发布

阅读量624

点赞数

分类专栏： Transformer 文章标签：深度学习信息压缩

本文链接：https://blog.csdn.net/qq_40616042/article/details/116749862

版权

Pyramid Vision Transformer(PVT)结合了Transformer和CNN的优势，提供高分辨率输出，适用于目标检测和语义分割等dense prediction任务。PVT通过渐进式缩放结构减少计算量，并使用Spatial Reduction Attention(SRA)保持全局感受野。与ViT相比，PVT在有限资源下处理更大输入特征图，通过调整Ws尺度实现高效操作。实验表明，增加stage的encoder数量能提升性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
https://github.com/whai362/PVT

ABSTRACT:
ViT低分辨率输出，高计算量，高存储。
PVT实现高分辨率输出，不使用卷积的条件下融合CNN和transformer的优点，实现像素级的预测。希望PVT不止是在图像分类任务上，也可以作为一种通用模型实现dense prediction 如目标检测，语义实例分割。
transformer在NLP的成功推动在CV的探索，相关工作有用decoder作CNN vackbone 的task-specific head或者将注意力机制引入CNN中，但是 exploring a clean and convolution-free Transformer backbone to address dense prediction tasks in computer vision is rarely studied.

PVT优点：
（1）相比于传统CNN的局部感受野，随layer加深而增大，PVT一直保持全局感受野
（2）用于dense prediction任务（像素级别的分类和回归），目标检测要求高分辨率和多规格特征映射。
（3）可以融合PVT和decoder实现其他任务

ViT存在的问题是，(1)输入和输出的尺寸相同，因而也就无法处理较大尺寸输入的图片。(2)低分辨率输出，高计算量，高存储。
卷积滤波器的权重在训练后通常是固定的，因此其动态适应输入的变化是不灵活的。有人提出了通过自我注意操作来缓解这一问题的方法。非局部块non-n