Transformer论文笔记2----借鉴卷积的渐进缩放模型实现金字塔设计用于dense prediction任务

Pyramid Vision Transformer(PVT)结合了Transformer和CNN的优势,提供高分辨率输出,适用于目标检测和语义分割等dense prediction任务。PVT通过渐进式缩放结构减少计算量,并使用Spatial Reduction Attention(SRA)保持全局感受野。与ViT相比,PVT在有限资源下处理更大输入特征图,通过调整Ws尺度实现高效操作。实验表明,增加stage的encoder数量能提升性能。
摘要由CSDN通过智能技术生成

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
https://github.com/whai362/PVT

ABSTRACT:
ViT低分辨率输出,高计算量,高存储。
PVT实现高分辨率输出,不使用卷积的条件下融合CNN和transformer的优点,实现像素级的预测。希望PVT不止是在图像分类任务上,也可以作为一种通用模型实现dense prediction 如目标检测,语义实例分割。
transformer在NLP的成功推动在CV的探索,相关工作有用decoder作CNN vackbone 的task-specific head或者将注意力机制引入CNN中,但是 exploring a clean and convolution-free Transformer backbone to address dense prediction tasks in computer vision is rarely studied.

PVT优点:
(1)相比于传统CNN的局部感受野,随layer加深而增大,PVT一直保持全局感受野
(2)用于dense prediction任务(像素级别的分类和回归),目标检测要求高分辨率和多规格特征映射。
(3)可以融合PVT和decoder实现其他任务

ViT存在的问题是,(1)输入和输出的尺寸相同,因而也就无法处理较大尺寸输入的图片。(2)低分辨率输出,高计算量,高存储。
卷积滤波器的权重在训练后通常是固定的,因此其动态适应输入的变化是不灵活的。有人提出了通过自我注意操作来缓解这一问题的方法。非局部块non-n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值