论文笔记：Vision Transformers for Dense Prediction

BlueagleAI

已于 2023-02-17 13:54:38 修改

阅读量736

点赞数

分类专栏：深度估计 Backbone 文章标签：论文阅读深度学习计算机视觉 Transformer 单目深度估计

于 2023-02-15 10:50:06 首次发布

本文链接：https://blog.csdn.net/blueag1e/article/details/129025337

版权

深度估计同时被 2 个专栏收录

7 篇文章 1 订阅

订阅专栏

Backbone

3 篇文章 0 订阅

订阅专栏

中文标题: 密集预测的视觉Transformers

创新点

DPT是一种密集预测架构，它基于编码器-解码器的设计，利用一个Transformer作为编码器的基本模块。具体来说，我们使用最近提出的ViT作为主干架构。
我们将ViT提供的tokens表示重新组合成不同分辨率的类图像特征表示，并使用卷积解码器逐步将特征表示组合到最终的密集预测中。
与全卷积网络不同，视觉Transformer主干在计算出初始图像嵌入后放弃了显式的降采样操作，并在所有处理阶段保持了恒定维数的表示。此外，它在每个阶段都有一个全球性的接受域。

算法介绍

网络结构

在这里插入图片描述

Transformer 编码器

在高层次，ViT将图像转换为词袋表示的Patches。这些Patches作为“单词”独立编码到特征空间，我们将这些“单词”作为tokens,使用一系列多头自注意力机制来与其他的tokens进行联系。
使用Resnet50作为Embedding编码器。
由于Transformer是设定到集（set-to-set）函数，所以不保留tokens的空间位置信息。因此可以通过合并enbeddings补充这部分信息。
见结构图左。

卷积解码器

提出的解码器将一组tokens组装成不同分辨率的图像特征表示。特征逐步被融合进最终的密集预测中。
提出了一个简单三层Reassemble操作从tokens恢复到图像表示。
s是输出特征与输入图像的尺寸比
见图中

首先将 $N_p + 1$ 个tokens 按照图像排列到 $N_p$ ,但是 read out token虽然在密集预测任务中没有明确的作用，但潜在地捕捉、区分全局信息，因此设计了三种不同地方法：无视，加在所有的tokens上，使用MLP结合到所有tokens上。（从后面的Abltion study 可知MLP方法和Ignore方法没有明显优略）
然后我们使用一个空间连接操作，组合得到特征图：
使用空间重采样层对特征进行进一步的特征提取。（1x1卷积，3x3卷积或反卷积）

最后我们以较低的分辨率的特征来融合来自Transformer深层的特征，而来自浅层的特征则以较高的分辨率融合。
如果使用ViT-Hybrid模型，则分别使用Resnet以及ViT的特征在Decoder进行融合。

实验介绍

文章把DPT应用在：单目深度估计以及语义分割任务中。

单目深度估计

论文中认为Transformer只有在大量数据上进行训练效果才会好，因此可以在不同数据集间迁移，达到很好的训练效果。
文章训练了60个Epoches。

参考文献

[1] Ranftl R, Bochkovskiy A, Koltun V. Vision transformers for dense prediction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 12179-12188.