Vision Transformers for Dense Prediction--阅读阶段

最新推荐文章于 2025-03-17 19:12:50 发布

MengYa_DreamZ

最新推荐文章于 2025-03-17 19:12:50 发布

阅读量3.2k

点赞数 18

分类专栏：【论文研读-图像处理】文章标签： python 计算机视觉图像处理

原文链接：https://arxiv.org/pdf/2103.13413.pdf

版权

【论文研读-图像处理】专栏收录该内容

39 篇文章

订阅专栏

论文相关申明

论文地址

@article{Ranftl2021,
	author    = {Ren\'{e} Ranftl and Alexey Bochkovskiy and Vladlen Koltun},
	title     = {Vision Transformers for Dense Prediction},
	journal   = {ArXiv preprint},
	year      = {2021},
}

@article{Ranftl2020,
	author    = {Ren\'{e} Ranftl and Katrin Lasinger and David Hafner and Konrad Schindler and Vladlen Koltun},
	title     = {Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer},
	journal   = {IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)},
	year      = {2020},
}

Abstract

dense vision transformers：利用vision transformer代替Convolutionnal networks—密集预测任务的主干的架构

from various stages of the vision transformer into image-like（类图像？） representations at various resolutions and progressively combine them into full-resolution predictions using a convolutional decoder.

通过不同阶段的vision transformers表示成不同分辨率的image-like表现，并使用卷积解码器逐步组合成全分辨率预测。

（研究参考）Transformer主干以恒定和相对较高的分辨率处理表示，并在每个阶段都有一个全局接收域（a global receptive field）。与完全卷积网络相比，这些特性允许dense vision transformer提供更细粒度和更全局相干的预测。

实验表明，这种架构在密集的预测任务上产生了实质性的改进，特别是当有大量的训练数据可用时。对于单眼深度估计，与最先进的完全卷积网络（FCN，fully-convolutional networks.）相比，其相对性能提高了高达28%。应用于语义分割时，Dense vision transformer在ADE20K上是49.02%的mIoU。同时进一步表明，当处于新技术设置，该架构可以在较小的数据集上进行微调，如NYUv2、KITTI和Pascal Context。

FCN-对图像进行像素级的分类，从而解决语义级别的图像分割（semantic segmentation）问题，是一种端到端(end to end)的图像分割方法。FCN可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。

语义分割-语义分割是在像素级别上的分类，属于同一类的像素都要被归为一类，因此语义分割是从像素级别来理解图像的。如一张照片，将属于人的像素分成一类，属于建筑的像素也要分成一类，除此之外还有其他像素也被分为一类。context中文称为语境或者上下文，通俗的理解就是综合了更多的信息来进行决策。

A global receptive field：in a deep learning context, the Receptive Field (RF) is defined as the size of the region in the input that produces the feature.理想情况下，图像的每个输出像素都有一个大的感受野，以确保没有关键信息不被考虑到。

mIoU：Mean Intersection over Union(MIoU，均交并比)，语义分割的标准度量。其计算两个集合的交并比，在语义分割的问题中，这两个集合为真实值（ground truth）和预测值（predicted segmentation）。

Introduction

密集预测架构主要基于卷积网络，其设计通常遵循一种从逻辑上将网络分为编码器和解码器的模式。编码器通常基于一个图像分类网络（主干），在像ImageNet这样的大型语料库上进行预训练。解码器聚合来自编码器的特征，并将其转换为最终的密集预测。密集预测的体系结构研究往往集中在解码器及其聚合策略上。主干架构对整个模型有很大的影响，因为编码器中丢失的任何信息都不可能在解码器中恢复。

卷积主干逐步对输入图像进行向下采样，以提取多个尺度上的特征。下采样使接受域的逐渐增加，将低级特征分组为抽象的高级特征，同时确保网络的内存和计算需求保持易于处理。然而，下采样有明显的缺点，这在密集的预测任务中特别突出：特征分辨率和粒度在模型的更深层次的阶段丢失，因此很难在解码器中恢复。虽然特征分辨率和粒度可能对某些任务并不重要，如图像分类，但它们对于密集预测至关重要，在理想情况下，体系结构应该能够在或接近输入图像的分辨率时分辨特征。

研究动机：密集预测架构的主干很重要，目前基于卷积网络的主干，在下采样中，其特征分辨率和粒度在模型的更深层次阶段丢失，从而在解码器中难以恢复，使密集预测深受影响。

下采样：缩小图像（或称为下采样（subsampling）或降采样（downsampling））的主要目的有两个：1、使得图像符合显示区域的大小；2、生成对应图像的缩略图。

下采样原理：对于一幅图像I尺寸为M x N，对其进行s倍下采样，即得到(M/s)x(N/s)尺寸的得分辨率图像，s是M和N的公约数，如果考虑的是矩阵形式的图像，就是把原始图像s*s窗口内的图像变成一个像素，这个像素点的值就是窗口内所有像素的均值。

特征分辨率和粒度（feature resolution and granularity）??粒度就是统计的粗细程度

现提出的减轻特征粒度损失的各种技术。这些包括训练在更高的输入分辨率（如果计算预算允许），扩大卷积，迅速增加接受域没有下采样，适当放置从编码器的多个阶段跳过连接到解码器，或者最近的通过在整个网络并行连接多分辨率表示。虽然这些技术可以显著提高预测质量，但网络仍然受到其基本构建块—卷积的瓶颈。卷积和非线性一起构成了图像分析网络的基本计算单元。根据定义，卷积是具有有限接受域的线性算子。有限的接受域和单个卷积的有限表达性需要顺序堆叠成非常深的结构，以获得非常广泛的背景和足够高的表征能力。 然而，这需要产生许多需要大量的间接表示。降采样中间表示是必要的，以保持内存消耗在现有计算机架构中可行的水平。

在本工作中，介绍了密集的预测变压器(DPT)。DPT是一种密集的预测体系结构，它基于编码器-解码器的设计，利用transformer作为编码器的基本计算构建块。具体来说，使用最近提出的Vision Transformer(ViT)作为主干架构，将ViT提供的bag-of-words表示重新组装为不同分辨率的类图像特征表示，并使用卷积解码器逐步将特征表示组合到最终的密集预测中。与完全卷积网络不同，ViT主干在计算初始图像嵌入后放弃显式下采样操作，并在所有处理阶段保持恒定维度的表示。此外，在每个阶段都有一个全局性的接受域，实验表明，这些特性对于密集的预测任务特别有利，因为它们会导致细粒度和全局相一致的预测。

bag-of-words:The bag-of-words model is a simplifying representation used in natural language processing and information retrieval (IR). In this model, a text (such as a sentence or a document) is represented as the bag (multiset) of its words, disregarding grammar and even word order but keeping multiplicity. The bag-of-words model has also been used for computer vision.

个人观点：一个图像被表示为它像素的包，不考虑像素位置甚至排列，但保持特征性。

单眼深度估计和语义分割的实验。对于通用单眼深度估计的任务，其中有大规模的训练数据可用，与该任务中性能最好的全卷积网络相比，DPT提供的性能提高了超过28%。该架构还可以微调到小的单眼深度预测数据集，如NYUv2和KITTI，当它也设置了新的技术状态。实验利用语义分割实验进一步提供了DPT的强性能的证据。对于这个任务，DPT在具有挑战性的ADE20K和Pascal Context数据集上设置了一个新的最新技术状态。定性结果表明，与卷积网络相比，这些改进可以归因于更细粒度和更全局一致的预测。

Related Work

全卷积网络是密集预测的原型体系结构。多年来，这种基本模式的许多变体已经被提出，然而，所有现有的架构都采用卷积和子采样作为其基本元素，以学习能够利用适当大上下文的多尺度（multi-scale representations that can leverage an appropriately large context）表示。一些工作提出逐步在不同阶段汇集的上样本表示，而另一些工作使用扩展卷积或多个尺度的并行多尺度特征聚合来恢复细粒度预测，同时确保足够大的上下文。最近的体系结构在整个网络中维护了高分辨率表示和多个低分辨率表示。

Attention-based models ，特别是Transformers ——一直是学习自然语言处理(NLP)强模型的首选架构。Transformers are set-to-set models that are based on the self-attention mechanism。Transformer模型在实例化为高容量架构并在非常大的数据集上进行训练时特别成功。已经有一些工作将注意机制适应于图像分析。特别是，最近有研究表明，在NLP中成功地直接应用基于transformer architectures可以在图像分类上产生具有竞争力的性能。这项工作的一个关键点，就像NLP中的Transformer模型一样，ViT需要与足够数量的训练数据配对，以实现它们的潜力。

细粒度：细粒度与图像分类紧密相关，细粒度越高，其分辨同类别物种的不同子类（如同为狗，类别需要进一步区分，此处就利用细粒度进一步分类），细粒度的重要性可谓“差之毫厘，谬以千里”。

NLP：natural language processing 自然语言处理

计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统，主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。

Architecture

本节介绍了dense vision transformer ，这在过去成功的密集预测的基础上，保持了整体的编码器-解码器结构。利用ViT作为主干，展示了该编码器产生的表示如何有效地转化为密集的预测，并为该策略的成功提供了直觉（intuition），图1（左）显示了完整架构的概述。

1 Transformer encoder

在一个高水平上，Vision Transformer在图像的bag-of-words表示上进行操作。单独嵌入到特征空间中的图像补丁，或者从图像中提取的深度特征，扮演“words”的角色。在本工作的其余部分中，将嵌入的“word”称为tokens 。Transformer使用multi-headed self-attention(MHSA)的顺序块对tokens进行转换，该块将tokens相互联系起来来转换表示。

image--extracted--image patch--word--token（变化）：特征空间中的图像patch

image patch：图像补丁是较大形式的像素容器例如，假设有一张 100 像素 x 100 像素的图像。如果您将这些图像划分为 10x10 块，那么将拥有一个包含 100 个块的图像（即每个块为 100 像素）。如果开发了一种算法，可以在 10px x 10px 上运行，那么 10px x 10px 就是补丁大小。例如，CNN 的池化层采用更大的块并将它们变成一个像素，可以将其视为信号处理中的窗口。在图像处理补丁和窗口大多数情况下是可以互换的，但是当您的算法主要关注一堆像素共享相似属性的事实时，通常会在上下文中使用补丁。例如，补丁用于稀疏表示或图像压缩的上下文，而窗口用于边缘检测或图像增强。

Multi-headed self-attention(MHSA) Net：一种新的人物再识别模型，称为多头自我注意网络(MHSA-Net)，用于从人物图像中剔除不重要的信息并捕捉关键的局部信息。MHSA-Net包含两个主要的新颖组件：多头自我注意分支(MHSAB)和注意力竞争机制(ACM)。MHSAM自适应地捕获关键的局域人信息，然后产生有效的图像多样性嵌入，用于人的匹配。ACM进一步帮助过滤剔除注意力、噪音和非关键信息。通过广泛的消融研究，验证了结构化的自我注意分支和注意竞争机制都有助于MHSA-Net的性能提高。MHSA-Net在有遮挡的图像上作用深远。

对于应用程序来说，重要的是，transformer在所有计算过程中保持token数量。由于token与image patches有一对一的对应关系，这意味着ViT编码器在所有transformer阶段保持初始嵌入的空间分辨率。此外，MHSA是一个全局操作，因为每个token都可以关注并影响其他token。因此，transformer在初始嵌入后的每个阶段都有一个全局的接受域。这与卷积网络形成了鲜明的对比，卷积网络随着特征通过连续的卷积和下采样层时，逐渐增加了它们的接受域。

具体而言，ViT通过处理所有不重叠的正方形斑块从图像中提取嵌入的补丁从图像中获得 $p^{2}$ 像素的大小。这些补丁被扁平(flattened into)到向量中，并使用线性投影单独嵌入。另一种，更具样本效率的ViT变体通过对图像应用ResNet50来提取嵌入，并使用生成的特征映射的像素特征作为标记。由于transformer是set-to-set functions，因此它们本质上并不保留单个token的空间位置信息。因此，图像嵌入与可学习的位置嵌入连接，以将这些信息添加到表示中。在NLP中的工作之后，ViT还添加了一个与输入图像不相关的special token（readout token），并作为最终用于分类的全局图像表示。在此将这个特殊的标记称为读出标记。将嵌入过程应用于大小为H×W像素的图像的设置是 $t^{0}$ ={ $t_{0}^{0}$ ，……， $t_{Np}^{0}$ }， $t_{n}^{0}$ ∈ $R^{D}$ tokens，其中 $N_{p}=\frac{HW}{p^{2}}$ ， $t_{0}$ 表示readout token，D是每个token的特征维度（feature dimension）。

扁平 flat：按照一个可指定的深度递归遍历数组，并将所有元素与遍历到的子数组中的元素合并为一个新数组返回。

特征维度 feature dimension：对图像来说，维度就是图像中特征向量的数量。特征向量可以理解为是坐标轴，一个特征向量定义一条直线，是一维，两个相互垂直的特征向量定义一个平面，即一个直角坐标系，就是二维，三个相互垂直的特征向量定义一个空间，即一个立体直角坐标系，就是三维。三个以上的特征向量相互垂直，定义人眼无法看见，也无法想象的高维空间。

输入的token通过L个transformer层转换为新的表示 $t^{l}$ ，其中 l 表示第 l transformer层的输出。Dosovitskiy等人定义了这个基本蓝图的几种变体。本次工作中使用了三种变体：

ViT-Base，使用基于补丁的嵌入程序，具有12个tranformer层；
ViT-Large，使用相同的嵌入程序，有24个transformer层和更宽的特征大小D；
ViT-Hybrid，使用ResNet50来计算12个transformer层后的图像embed。

在所有的实验中都使用patch size p = 16。

An image is worth 16x16 words: Transformers for image recognition at scale. （更多细节）

patch size：图像补丁大小

ViT-Base和ViT-Large的嵌入程序将扁平的补丁分别投影到尺寸D=768和D=1024上。由于这两个特征维度都大于输入补丁中的像素数，这意味着嵌入过程可以学习保留信息。来自输入补丁的特征原则上可以以像素级的精度来解决。类似地，ViT-Hybrid架构提取 $\frac{1}{16}$ 输入分辨率的特征，是卷积骨干常用的最低分辨率特征的两倍。

2 Convolutional decoder

解码器将tokens组合成不同分辨率的类图像特征表示。特征表示逐渐融合到最终的密集预测中。文章提出了一个简单的三阶段重组操作，以从transformer encoder任意层输出的token中恢复类图像的表示形式：

首先将 $N_{p}+1$ token映射到一组易于空间连接的 $N_{p}$ token上，并可连接成一个类图像的表示：

此操作主要负责正确处理readout token。由于readout token在密集预测任务中没有明确的目的，但仍可能在捕获和分发全局信息方面有用，因此研究评估了该映射的三种不同变体：

仅忽略了读出的token，

通过添加表示，将readout token与其他other token相连接以传递信息，再利用GELU非线性层将表示信息投影到原始特征维度D：

GELU（gaussian error linear units）:激活函数-12，能避免梯度消失问题，在transformer使用广泛（其他激活函数）

MLP：多层感知器（Muti-Layer Perception ，MLP）

在读取块之后，通过根据所述的初始补丁在所述图像中的位置放置每个token，可以将生成的 $N_{p}$ token重塑为类图像的表示。在形式上，应用了一个空间连接操作，从而得到一个具有D通道的大小为 $\frac{H}{P}+\frac{W}{P}$ 的特征图：

Concatenate：拼接，H,W 都不改变，但是通道数增加。网络结构设计中很重要的一种操作，经常用于将特征联合，多个卷积提取框架提取的特征融合或者是将输出层的信息进行融合。Densenet 是做通道的合并，而Concatnate 是通道数的合并，也就是说描述图像本身的特征增加了，而每一特征下的信息是没有增加的。

最后，将此表示传递给一个空间重采样层，该层将表示扩展为具有 $\hat{D}$ 特征每像素的大小为 $\frac{H}{p}\times \frac{W}{s}$ ：

首先使用1×1卷积将输入表示投影到 $\hat{D}$ ，然后在s ≥ p时，followed by（链）3×3卷积，或在s < p时链3×3变换（transpose）卷积，分别实现空间降采样和上采样操作。

transpose convolution宗旨：transposed convolution将output size恢复为input size且保持连接方式相同。

不管具体的transformer主干如何，都在四个不同的阶段和四个不同的分辨率上重新组装特征。以更低分辨率组装transformer深层的特征，而早期层的特征以更高分辨率组装。当使用ViT-Large时，从 l ={5，12，18，24}层重新组装tokens，而使用ViT-Base，使用 l ={3，6，9，12}层。当使用ViT-Hybrid时，使用了来自嵌入网络的第一和第二个ResNet块和阶段 l ={9,12}的特性。默认体系结构使用投影作为读出操作，并使用 $\hat{D}$ =256维度生成特性映射，将这些架构分别称为DPT-Base、DPT-Large和DPTHybrid。

最后，使用基于RefineNet的特征融合块（见图1(右)）结合从连续阶段提取的特征图，并在每个融合阶段对表示向上采样两次。最终的表示大小的分辨率是输入图像的一半，在此，附加一个特定于任务的输出头来产生最终的预测。完整架构的示意图概述如图1所示。

RefineNet：RefineNet的网络模块，是基于Resnet的残差连接的思想设计的，可以充分利用下采样过程损失的信息，使稠密预测更为精准。

上采样：图像放大几乎都是采用内插值方法，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

3 Handling varying image sizes

与完全卷积网络一样，DPT可以处理不同的图像大小。只要图像大小可被p整除，就可以应用嵌入过程，并将产生不同数量的图像token $N_{p}$ 。作为一个set-to-set的架构，转换器编码器可以简单地处理不同数量的token。然而，因为图像大小编码输入图像中补丁的位置，位置嵌入依赖于图像的大小。遵循在[11]中提出的方法，并将位置嵌入线性插值到适当的大小。注意，这可以为每张图像动态地完成。在嵌入过程和transformer阶段之后，如果输入图像与卷积解码器的步幅对齐，重组解码器（32 pixels）的融合模块都可以简单地处理不同数量的token。

Experiments

将DPT应用于两个密集的预测任务：单眼深度估计和语义分割。对于这两个任务，本文研究表明，与容量相似的卷积网络相比，DPT可以显著提高精度，特别是在有大型训练数据集的情况下。

首先使用默认配置来展示本文的主要结果，并在本节的最后显示了不同DPT配置的全面消融。

comprehensive ablations ：消融研究”通常用于神经网络，尤其是相对复杂的神经网络，如R-CNN。想法是通过删除部分网络并研究网络的性能来了解网络，类似控制变量法？

1 Monocular Depth Estimation

单眼深度估计通常是一个密集的回归问题。现已经表明，现有的数据资源可以构建大量的元集，前提是要注意不同的深度表示如何统一成一个共同的表示，并且在训练损失中适当处理常见的歧义（如量表歧义）。由于已知transformer只有在有大量的训练数据可用时才能充分发挥其潜力，因此单眼深度估计是测试DPT能力的理想任务。

尺度/深度模糊问题（Scale / Depth Ambiguity）：距离摄像头近的小物体和距离摄像头远的大物体，看起来几乎完全一样。因此会使用一些尺度不变性损失（Scale invariant loss）

Experimental protocol

研究严格遵循Ranftl等人的protocol，学习了一个单眼深度预测网络——基于逆深（inverse depth）度表示的比例损失和位移不变修剪损失（a scale- and shift-invariant trimmed loss），以及在[22]中提出的梯度匹配损失。研究构建了一个元数据集，其中包含[30]中使用的原始数据集(在该工作中称为MIX5)，并使用5个附加数据集进行扩展，将这个元数据集称为MIX6，它包含了大约140万张图像，据所知，它是有史以来最大的单眼深度估计训练集。

inverse depth：一些数据集是用立体相机获得的，但没有立体装置的校准。这意味着只能得到与反深度成正比的视差。由于从深度到反深度是直接的，但不是从视差到深度，反深度参数化与处理尺度和潜在偏移的损失一起作为自然的中间地带。反深度也有几个不错的数值属性。无穷远处的点可以很容易地编码，误差分布表现良好并且近似高斯，这使得学习更容易。由于这些原因，它已被用于 3D 重建和 SLAM 领域多年。

a scale- and shift-invariant trimmed loss

the gradient-matching loss：梯度匹配损失

研究使用多目标优化和Adam一起，为主干设置学习速率为1e−5，解码器权值为1e−4。编码器用ImageNet预训练的权值初始化，而解码器是随机初始化的。使用一个由3个卷积层组成的输出头。输出头逐渐将特征维度减半，并在第一卷积层之后将预测结果上采样到输入分辨率（详见补充材料）。在解码器中禁用了批处理归一化，因为发现它会对回归任务的结果产生负面影响。研究调整了图像的大小，使较长的一侧为384像素，并对384个大小的随机正方形裁切进行训练。实验训练了60个周期，其中一个周期由72,000步组成，批处理大小为16步。由于批处理大小不能被数据集的数量分除，因此在从各自的数据集采样之前，首先均匀随机抽取数据集，构建一个小批数据集。执行随机的水平翻转来进行数据增强。与[30]类似，本文研究首先在数据[45,46,47]的一个管理良好的子集上预训练60次，然后对完整的数据集进行训练。

multi-objective optimization：多目标优化，是一个区域的多个准则决策是涉及数学优化问题涉及一个以上的目标函数，以同时优化.

【论文】 Adam：A method for stochastic optimization，一种随机优化方法

Zero-shot cross-dataset transfer

表1显示了训练中看不见的不同数据集的结果。文章建议读者参考给Ranftl等人的文章，以获取评估过程和错误指标的详细信息。对于所有指标，越低越好就好，这两种DPT变体都显著优于最先进的水平。与最佳发布的架构MiDaS相比，DPT-Hybrid的平均相对改进超过23%，DPT-Large为28%。DPT-Hybrid以类似的网络容量实现了这一点（表9），而DPT-Large大约是MiDaS的3倍。请注意，这两种体系结构与MiDaS具有相似的延迟（表9）。

MIX6:本文构建的一个元数据集，包含[30]中使用的原始数据集(在该工作中称为MIX5)，并使用5个附加数据集进行扩展，将这个元数据集称为MIX6，它包含了大约140万张图像。

DIW ：相对深度数据集

WHDR：Weighted Human Disagreement Rate，人为加权分歧率

AbsRel：绝对相对误差

为了确保观察到的改进不仅仅是由于训练集的扩大，研究在MiDaS在更大的元集MIX6上重新训练了作者所使用的全卷积网络。虽然全卷积网络确实受益于更大的训练集，但可以观察到，这两个DPT变体仍然很强地优于该网络。这表明，DPT可以更好地受益于增加的训练集大小，这一观察结果与之前在其他领域的基于transformer的架构上的发现相一致。

图2中的视觉比较支持了定量结果。DPT可以更好地重建细节，同时也可以提高对卷积体系结构具有挑战性的区域的全局一致性（例如，大的均匀区域或跨图像的相对深度排列）。

Fine-tuning on small datasets

研究在在KITTI和NYUv2数据集上微调了DPT-Hybrid，以进一步比较DPT与现有工作的表征能力。由于该网络是用仿射不变损失来训练的，因此它的预测是任意缩放和位移的，并且可以有很大的幅度。因此，直接微调将是具有挑战性的，因为预测的幅度与地面真实的全局不匹配将主导损失。因此，研究首先使用[30]中描述的鲁棒对齐程序，将初始网络的预测与每个训练样本进行对齐。然对整个训练集的结果尺度和偏移进行平均，并将平均尺度和偏移应用于预测，然后再将结果传递给损失。对 Eigen 等人提出的损失进行了微调。禁用了 KITTI 的梯度匹配损失，因为这数据集仅提供稀疏的基本事实。

表2和表3总结了研究结果。本文提出的体系结构匹配或提高了两个数据集上的最先进的性能。这表明DPT也可以有效地应用于较小的数据集。

RMSE：root mean square error，均方根误差

the representational power ：表示能力

an affifine-invariant loss ：放射不变损失？？

robust alignment procedure：鲁棒对齐程序

average scale and shift：平均比例和偏移

2 Semantic Segmentation

文章选择语义分割作为第二个任务，因为它代表了离散标记任务，并且是密集预测架构的一个非常有竞争力的证明场。采用了与之前的实验相同的主干和解码器结构。研究使用一个输出头，预测半分辨率，并使用双线性插值对日志进行全分辨率预测（详见补充材料）。编码器再次从ImageNet预训练的权值中初始化，解码器被随机初始化。

discrete labeling task：离散标记任务

Experimental protocol

研究严格遵循Zhang等人建立的protocol。采用了一个交叉熵损失，并向倒数第二个融合层的输出添加了一个辅助输出头和一个辅助损失。将辅助损失的权值设置为0.2。在两个头部的最终分类层之前，都使用了0.1的Dropout。使用动量为0.9的SGD和衰减因子为0.9的多项式学习速率调度器。在融合层中使用批归一化，并训练批大小为48。图像的大小被调整为520像素的侧长。在∈（0.5,2.0）范围内使用随机水平翻转和随机重新调整来进行数据增强。对480号大小的正方形随机裁切进行训练，设置了学习率为0.002。在测试时使用多尺度推理，并报告像素精度(pixAcc)和平均交叉联合(mIoU)。

a cross-entropy loss：交叉熵损失

Dropout：

SGD： Saccharomyces Genome Database

a polynomial learning rate scheduler ：一个多项式学习速率调度器

random horizontal flflipping and random rescaling：随机水平翻转和随机重新调整

multi-scale inference :多尺度推理

ADE20K

在ADE20K语义分割数据集上训练DPT240个周期。表4总结了在验证集上的结果。DPT-Hybrid的性能优于所有现有的全卷积架构。DPT-Large的性能稍差一些，可能是因为与之前的实验相比，数据集要小得多。图3提供了可视化的比较。观察到，DPT倾向于产生更干净和更细粒度的物体边界描述，而且在某些情况下，预测也不那么杂乱。

ADE20K：数据集

Fine-tuning on smaller datasets

在Pascal上下文数据集上微调DPT-Hybrid50个周期，其他所有超参数都保持不变。表5显示了本实验的验证集的结果。再次看到，DPT即使在较小的数据集上也可以提供较强的性能。

3 Ablations

通过消融研究研究了DPT的许多方面和技术选择。选择单眼深度估计作为消融的任务，并遵循与前面描述的相同的协议和超参数设置。使用了一个简化的元数据集，它由三个数据集[45,46,47]组成，由约41,000张图像组成。选择这些数据集，是因为它们提供了高质量的真实地面。将每个数据集分成一个训练集和一个总共大约1000张图像的小验证集。记录了验证集在预测仿射对齐后的相对绝对偏差的结果。除非另有说明，否则使用ViT-Base作为主干架构。

Skip connections

卷积体系结构为将特性从编码器传递到解码器提供了自然的感兴趣点，即在降采样之前或之后表示。由于transformer主干保持了恒定的特性分辨率，因此不清楚应该利用主干特性中的哪些点。在表6（上）中评估了几种可能的选择。观察到，从包含低级特征的层以及包含高级特征的更深层的层中挖掘特征是有益的，对所有进一步的实验都采用了最好的设置。

使用表6（底部）中的混合架构进行了类似的实验，其中R0和R1指的是使用ResNet50嵌入网络的第一和第二降采样阶段的特征。观察到，使用来自嵌入网络的低级特性比单独使用来自transformer阶段的特性具有更好的性能，在所有涉及混合架构的进一步实验中使用这个设置。

Readout token

表7检查了实现重新组装块的第一阶段以处理读出token的各种选择。虽然忽略token产生良好的性能，投影提供略好的性能。另一方面，添加token比简单地忽略它会产生更差的性能。我们在所有进一步的实验中都使用投影。

Backbones

不同主干的性能如表 8 所示。 ViT-Large优于所有其他骨干，但也几乎是ViT-Base和ViT混合动力的三倍。ViT-Hybrid在类似数量的参数上优于ViT-Base，并具有与大型主干网相当的性能。因此，它在准确性和能力之间提供了一个很好的权衡。

ViT-Base的性能与ResNext101-WSL相当，而ViT-Hybrid和ViT-Large提高了性能，尽管它们在明显较少的数据上进行了预训练。值得注意的是，除了ImageNet预训练外，ResNext101-WSL还在一个10亿个规模的弱监督数据语料库上进行了预训练。据观察，这种预训练提高了单眼深度预测的性能。此体系结构对应于原始的MiDaS体系结构。

最后，与最近的ViT的变体DeIT进行了比较。DeIT用一个更高效的数据预训练程序来训练ViT架构。请注意，DeIT-Base架构与ViT-Base相同，而DEIT-Base-Dist引入了一个额外的蒸馏token？，在重组操作中忽略了它。观察到，与ViT-base相比，DeIT-Base-Dist 确实提高了性能。这表明，与卷积架构类似，图像分类的预训练程序的改进可以有利于密集的预测任务。

distillation token ：蒸馏token？？

Inference resolution

虽然完全卷积结构在其最深层可以有大的有效接受域，但靠近输入的层是局部的，并且有小的接受域。因此，当在与训练分辨率显著不同的输入分辨率下执行推理时，性能会受到严重影响。另一方面，transformer编码器在每一层有一个全局的接受域。由此推测，这使得DPT对推理解析的依赖性降低了。为了验证这一假设，我们绘制了当以分辨率高于384×384像素的训练分辨率进行推理时，不同体系结构的性能损失。在图4中，绘制了相对在训练分辨率下执行推理的性能的相对下降情况。观察到，随着推理分辨率的增加，DPT变体的性能确实会更缓缓地下降。

Inference speed

表9显示了不同网络架构的推理时间。计时是在英特尔Xeon铂8280CPU@2.70GHz上进行的，带有8个物理核和英伟达RTX2080GPU。使用宽度为384像素的正方形图像，并记录平均超过400次运行。DPT-Hybrid和DPT-Large显示了与MiDaS使用的全卷积架构相当的延迟。有趣的是，虽然DPT-Large在参数计数方面远远比其他架构大，但它具有竞争延迟，因为它通过其宽而相对较浅的结构体现了高度的并行性。

competitive latency：竞争延迟

Conclusion

文章引入了密集的预测transformerDPT，这是一种神经网络架构，可以有效地利用ViT进行密集的预测任务。
在单眼深度估计和语义分割上的实验表明，与完全卷积结构相比，所提出的结构产生了更细粒度和全局一致的预测。
与之前对transformer的工作类似，DPT在大规模数据集上训练时发挥了其全部潜力。

个人整理：

遗留问题：

image-like 含义

特征分辨率和粒度（feature resolution and granularity）解释

扁平 flat处理概念意义

Scale invariant loss概念

a scale- and shift-invariant trimmed loss概念

the gradient-matching loss概念

an affifine-invariant loss 概念

distillation token含义