【论文笔记】Vision Transformers for Dense Prediction

最新推荐文章于 2024-07-25 23:06:58 发布

来自γ星的赛亚人

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量5.3k

点赞数 2

分类专栏： Vision Transformer 论文笔记文章标签：深度学习 transformer 计算机视觉神经网络人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58678659/article/details/124318806

版权

论文笔记同时被 2 个专栏收录

47 篇文章 7 订阅

订阅专栏

Vision Transformer

19 篇文章 12 订阅

订阅专栏

声明

不定期更新自己精读的论文，通俗易懂，初级小白也可以理解

涉及范围：深度学习方向，包括 CV、NLP、Data fusion、Digital Twin

论文题目：Vision Transformers for Dense Prediction

论文链接：https://arxiv.org/abs/2103.13413v1

论文代码：https://github.com/isl-org/DPT

发表时间：2021年3月

创新点

1、提出了基于 ViT 为主干架构的 Vision Transformer - DPT

Abstract

我们引入了密集视觉 Transformer，一种利用 Vision Transformer 代替卷积网络作为密集预测任务的骨干的架构。我们将来自 Vision Transformer 各个阶段的令牌组装成各种分辨率的类似图像的表示，并使用卷积解码器将它们逐步组合成全分辨率预测。 Transformer 主干以恒定且相对较高的分辨率处理表示，并且在每个阶段都具有全局感受野。与全卷积网络相比，这些属性允许密集视觉 Transformer 提供更细粒度和更全局连贯的预测。

我们的实验表明，这种架构对密集预测任务产生了显着的改进，尤其是在有大量训练数据可用的情况下。对于单目深度估计，我们观察到与最先进的全卷积网络相比，相对性能提高了高达 28%。当应用于语义分割时，密集视觉转换器以 49.02% 的 mIoU 在 ADE20K 上创造了新的技术水平。

我们进一步表明，该架构可以在较小的数据集上进行微调，例如 NYUv2、KITTI 和 Pascal Context，它还设置了新的状态。

Method

架构概述

首先，输入图像通过提取非重叠块然后对其扁平表示（DPT-Base 和 DPT-Large）进行线性投影或通过应用 ResNet-50 特征提取器（DPT-Hybrid）转换为标记（橙色）；

其次，图像嵌入通过位置嵌入增强，并添加了与补丁无关的读出标记（红色）。令牌通过多个 Transformer 阶段。作者将来自不同阶段的令牌重新组合成具有多种分辨率（绿色）的类似图像的表示；

最后，融合模块（紫色）逐步融合和上采样表示以生成细粒度预测。

Reassemble

重新组装操作，令牌被组装成特征图。

首先，将 Np + 1（位置编码，红色）个标记映射到一组 Np 标记，这些标记可以进行空间连接成类似图像的表示；

然后，使用 1*1 卷积表示投影操作；

最后，在四个不同阶段和四种不同分辨率重新组合特征。

Fusion

融合块使用残差卷积单元组合特征并对特征图进行上采样。

Experiments

实验目标：与单目深度估计的最新技术进行比较

实验结果：DPT-Large 具有明显优势

来自γ星的赛亚人

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文笔记】Vision Transformers for Dense Prediction

提出了基于 ViT 为主干架构的 Vision Transformer
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

来自γ星的赛亚人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。