中文标题: 密集预测的视觉Transformers
创新点
- DPT是一种密集预测架构,它基于编码器-解码器的设计,利用一个Transformer作为编码器的基本模块。具体来说,我们使用最近提出的ViT作为主干架构。
- 我们将ViT提供的tokens表示重新组合成不同分辨率的类图像特征表示,并使用卷积解码器逐步将特征表示组合到最终的密集预测中。
- 与全卷积网络不同,视觉Transformer主干在计算出初始图像嵌入后放弃了显式的降采样操作,并在所有处理阶段保持了恒定维数的表示。此外,它在每个阶段都有一个全球性的接受域。
算法介绍
网络结构
Transformer 编码器
- 在高层次,ViT将图像转换为词袋表示的Patches。这些Patches作为“单词”独立编码到特征空间,我们将这些“单词”作为tokens,使用一系列多头自注意力机制来与其他的tokens进行联系。
- 使用Resnet50作为Embedding编码器。
- 由于Transformer是设定到集(set-to-set)函数,所以不保留tokens的空间位置信息。因此可以通过合并enbeddings补充这部分信息。
- 见结构图左。
卷积解码器
- 提出的解码器将一组tokens组装成不同分辨率的图像特征表示。特征逐步被融合进最终的密集预测中。
- 提出了一个简单三层Reassemble操作从tokens恢复到图像表示。
- s是输出特征与输入图像的尺寸比
- 见图中
- 首先将
N
p
+
1
N_p + 1
Np+1个tokens 按照图像排列到
N
p
N_p
Np ,但是 read out token虽然在密集预测任务中没有明确的作用,但潜在地捕捉、区分全局信息,因此设计了三种不同地方法:无视,加在所有的tokens上,使用MLP结合到所有tokens上。(从后面的Abltion study 可知MLP方法和Ignore方法没有明显优略)
- 然后我们使用一个空间连接操作,组合得到特征图:
- 使用空间重采样层对特征进行进一步的特征提取。(1x1卷积,3x3卷积或反卷积)
- 最后我们以较低的分辨率的特征来融合来自Transformer深层的特征,而来自浅层的特征则以较高的分辨率融合。
- 如果使用ViT-Hybrid模型,则分别使用Resnet以及ViT的特征在Decoder进行融合。
实验介绍
- 文章把DPT应用在:单目深度估计以及语义分割任务中。
单目深度估计
- 论文中认为Transformer只有在大量数据上进行训练效果才会好,因此可以在不同数据集间迁移,达到很好的训练效果。
- 文章训练了60个Epoches。
参考文献
[1] Ranftl R, Bochkovskiy A, Koltun V. Vision transformers for dense prediction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 12179-12188.