Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
A. 问题首先,对于dense prediction tasks,完全无卷积的的transformer backbone少有人研究。而VIT作为用在图像分类任务的完全transformer结构,很难直接应用于像素级别的dense prediction,例如目标检测与分割。原因:(1)只有一个尺度的低分辨率输出 (2)内存与计算复杂度限制。 为了解决完全transformer对于dense prediction的限制,提出PVT,与vit相比,好处(1)输入输出可以更小(4x4,...
原创
2021-03-05 16:36:39 ·
2046 阅读 ·
2 评论