论文：Pyramid Vision Transformer

最新推荐文章于 2024-06-07 19:38:02 发布

cztAI

最新推荐文章于 2024-06-07 19:38:02 发布

阅读量1.6k

点赞数 1

分类专栏：目标检测语义分割文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/czt_666/article/details/119065981

版权

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

金字塔视觉Transformer: 无卷积密集预测的通用主干

PVTv1：https://arxiv.org/abs/2102.12122
代码：https://github.com/whai362/PVT

PVTv2：https://arxiv.org/abs/2106.13797
代码：https://github.com/whai362/PVT

PVTv1 架构

密集预测任务的目标是对特征图进行像素级分类或回归。目标检测和语义分割是两种典型的密集预测任务。我们的目标是在Transformer中引入金字塔结构，以便为密集的预测任务生成多尺度特征图。与CNN backbones类似，PVTv1 有四个阶段，用于生成不同比例尺的特征图（特征金字塔）。每个阶段由块(Patch)嵌入层和LiTransformer编码器层组成。下面来看LiTransformer编码器的SRA。
在这里插入图片描述

特征金字塔（Transformer）

CNN骨干网使用卷积步幅获得多尺度特征图不同，PVT使用逐步缩小策略，通过块嵌入层来控制特征图的规模。

这里，我们用 $P_i$ 表示第 $i$ 阶段的块大小。在阶段i的开始，我们首先将输入的特征图 $F_{i−1}∈\mathbb R^{H_{i−1}×W_{i−1}×C_{i−1}}$ 均匀划分为 $\frac{H_{i−1}W_{i−1} }{P^2_i}$

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
论文：Pyramid Vision Transformer

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions金字塔视觉Transformer: 无卷积密集预测的通用主干PVTv1：https://arxiv.org/abs/2102.12122代码：https://github.com/whai362/PVTPVTv2：https://arxiv.org/abs/2106.13797代码：https://github.com/
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。