总结
提出了一种新范式: 开发了 Vision Transformer Adapter (ViT-Adapter),通过引入无预训练的适配器将视觉特定的归纳偏差(例如局部空间信息)引入普通 ViT,适应密集预测任务。
保留 ViT 灵活性: 与设计专门用于视觉任务的视觉特定模型不同,ViT-Adapter 保留了普通 ViT 的通用性,使其可以利用图像、多模态数据进行预训练,适应不同任务。
模块设计: ViT-Adapter 包括三个关键模块:空间先验模块、空间特征注入器和多尺度特征提取器,分别用于捕捉局部语义、将空间特征注入 ViT、以及重建多尺度特征,弥补 ViT 在密集预测任务中的缺点。
性能提升: 在目标检测、实例分割和语义分割任务上,ViT-Adapter 显著提升了普通 ViT 的性能,并在 COCO 等基准上与最先进的视觉特定转换器(如 Swin Transformer)相当甚至超越。
多模态预训练的优势: ViT-Adapter 从多模态预训练中获益,例如通过预训练 ViT 使用图像、文本、视频等数据,表现出强大的密集预测能力。
可替换的注意力机制: 文章还展示了 ViT-Adapter 的通用性,其中的注意力机制是可替换的,采用了稀疏注意力作为默认配置,并可根据需要进一步优化。
ABSTRACT
这项工作研究了一种简单而强大的视觉转换器 (ViT) 密集预测任务适配器。与最近将视觉特定归纳偏差纳入其架构的高级变体不同,由于先前的假设较弱,普通 ViT 在密集预测上表现不佳。为了解决这个问题,我们提出了 ViT-Adapter,它允许普通 ViT 实现与视觉特定转换器相当的性能。具体来说,我们的框架中的主干是一个简单的 ViT,可以从大规模多模态数据中学习强大的表示。在转移到下游任务时,使用无预训练的适配器将与图像相关的归纳偏差引入模型中,使其适用于这些任务。我们在目标检测、实例分割和语义分割等多个密集预测任务上验证了ViT-Adapter。值得注意的是,在不使用额外检测数据的情况下,我们的 ViTAdapter-L 在 COCO testdev 上产生了最先进的 60.9 框 AP 和 53.0 掩码 AP。我们希望 ViT-Adapter 可以作为视觉特定转换器的替代方案,并促进未来的研究。代码和模型将在 https://github.com/czup/ViT-Adapter 发布。
图 1:以前的范式与我们的范式。(a) 以前的范式设计了基于视觉的模型,并通过监督或自我监督学习在大规模图像数据集上进行预训练,然后在下游任务上微调它们。(b) 我们提出了一个无预训练的适配器,以缩小普通ViT (Dosovitskiy et al., 2020)和视觉特定变压器(如Swin (Liu et al., 2021b))之间的性能差距,用于密集预测任务。与之前的范式相比,我们的方法保留了 ViT 的灵活性,因此可以从高级多模态预训练中受益。
1 INTRODUCTION
监督训练是一种依赖于带有明确标签的训练数据进行模型训练的方法。模型通过学习输入数据与标签之间的映射关系,来预测新的未见过的数据的标签。
自我监督训练是一种无需明确标签的数据训练方法。模型通过利用数据的内在结构或属性生成伪标签,进而进行训练。这类方法通常通过从未标注数据中构造出标签进行学习。
最近,transformers在广泛的计算机视觉领域取得了显著的成功。得益于注意机制的动态建模能力和远程依赖,各种视觉转换器(Dosovitskiy等人,2020;Chen等人,2021年;Han等人,2021年;Li等人,2021c;Wu等人,2022b)在许多计算机视觉任务中很快上升,如目标检测和语义分割,超过了CNN模型,达到了最先进的性能。这些模型主要分为两类,即普通 ViT (Dosovitskiy et al., 2020; Touvron et al., 2021) 及其分层变体 (Dong et al., 2021; Liu et al., 2021b;王等人,2021; 2022a)。一般来说,后者可以产生更好的结果,并且被认为通过使用局部空间操作将特定于视觉的归纳偏差引入它们的架构中。
尽管如此,普通的 ViT(即 vanilla Transformer)仍然有一些不可忽略的优势。一个典型的例子是多模态预训练(Zhu et al., 2021; 2022; Wang et al., 2022b)。transformers源于自然语言处理 (NLP) 领域,没有输入数据的假设。配备不同的tokenizers,例如patch embedding(Dosovitskiy等人,2020)、3Dpatch embedding(Liu等人,2021c)和token embedding(Vaswani等人,2017),普通Transformer,如普通ViT,可以使用大量的多模态数据进行预训练,包括图像、视频和文本,这鼓励模型学习语义丰富的表示。然而&