Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

最新推荐文章于 2024-05-24 14:01:26 发布

Splatoon7

最新推荐文章于 2024-05-24 14:01:26 发布

阅读量2k

点赞数 1

分类专栏： transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jipinzhuo93/article/details/114401367

版权

transformer 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

A. 问题

首先，对于dense prediction tasks，完全无卷积的的transformer backbone少有人研究。而VIT作为用在图像分类任务的完全transformer结构，很难直接应用于像素级别的dense prediction，例如目标检测与分割。

原因：（1）只有一个尺度的低分辨率输出（2）内存与计算复杂度限制。

为了解决完全transformer对于dense prediction的限制，提出PVT，与vit相比，

好处（1）输入输出可以更小（4x4, vit是32x32），从而产生高分辨率的输出。（2）提出渐进收缩金字塔结构（progressive shringkin pyramid）显著减少计算量（3）提出空间减少注意力层，进一步减少计算量(spatial-reduction attention)。

与CNN相比，PVT在每一步的特征提取过程中都考虑了全局感受野。

此外，有一个小问题，作者在介绍vision transformer相关工作的时候，这句话不知如何理解。

B. 方法

（1）整体结构，有{F1,F2,F3,F4}四个级别的输出。

（2）金字塔结构

不同stage的结构是share的，控制输出的方法如下。

（3）Encoder

提出Spatial-Reduction Attention(SRA)替代MHA，减少计算量。不同之处在于SRA会降低K和V的大小。

C. 实验

（1）分类

1.28million训练，50k验证，1000类。8个V100，300epochs。没说训练时间。

（2）目标检测

COCO train2017数据集（118kimage）,5k验证， 8 v100, batch 16。

（3）语义分割

ADE20K, 150类，20210张图训练。先在imagenet pre-train。4 v100, batch size 16, 80k循环。

（4）纯transformer（PVT+other transformer完成检测分割）

（5）消融实验

- Pyramid Structure: 4x4 patch效果

- Deeper vs Wider: deep 更有用

- 预训练

- 计算消耗

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

A. 问题首先，对于dense prediction tasks，完全无卷积的的transformer backbone少有人研究。而VIT作为用在图像分类任务的完全transformer结构，很难直接应用于像素级别的dense prediction，例如目标检测与分割。原因：（1）只有一个尺度的低分辨率输出（2）内存与计算复杂度限制。为了解决完全transformer对于dense prediction的限制，提出PVT，与vit相比，好处（1）输入输出可以更小（4x4,...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。