论文链接:https://arxiv.org/pdf/2203.16527.pdf
目录
这一篇论文是Facebook AI Research 的 Yanghao Li、何恺明等新作。论文思想主要是证明了将普通的、非分层的视觉 Transformer 作为主干网络进行目标检测的可行性。仅仅通过VIT的最后一层特征,通过多次反卷积来实现特征的多尺度。
摘要
本文探索研究了一种链式的,非层级结构的VIT作为目标检测的backbone。这种设计使得原始的VIT结构就可以fine-tuned用于目标检测,而无需重新设计一个具有层级结构的backbone用作预训练。通过微调plain-backbone detector就可以实现competitive 结果。
(1)从单一尺度的特征图上建立一个简单的特征金字塔是有效的(without FPN的那种设计结构)
(2)用简单的非重叠窗口注意力(没有 shifting),使用少量的跨窗口块来传播信息,这种做法有效。
引言
当前的目标检测器,通常都由一个与检测任务无关的backbone以及一组包含检测特定的先验知识的necks和heads构成。通常necks/heads中常用的构件包括ROI,RPN或者anchors,FPN 等。如果用于特定任务的颈部 / 头部的设计与主干的设计解耦,它们可以并行发展。从经验上看,目标检测研究受益于对通用主干和检测专用模块的大量独立探索。长期以来,由于卷积网络的实际设计,这些主干一直是多尺度、分层的架构,这严重影响了用于多尺度(如 FPN)目标检测的颈 / 头的设计。
在过去的一年里,视觉 Transformer(ViT)已经成为视觉识别的强大支柱。与典型的 ConvNets 不同,最初的 ViT 是一种简单的、非层次化的架构,始终保持单一尺度的特征图。它的「极简」追求在应用于目标检测时遇到了挑战,例如,我们如何通过上游预训练的简单主干来处理下游任务中的多尺度对象?简单 ViT 用于高分辨率图像检测是否效率太低?放弃这种追求的一个解决方案是在主干中重新引入分层设计。这种解决方案,例如 Swin Transformer 和其他网络,可以继承基于 ConvNet 的检测器设计,并已取得成功。
本文追求的是一个不同方向就是探索仅仅使用普通的,非层级结构backbone的object detector.若成功的话,那么仅仅使用VIT backbone进行目标检测将成为可能。在这个方向上,预训练设计将与微调需求解耦,就想基于ConvNet的研究一样,保存上下游任务的独立性。这一方向也在一定程度上遵循了 ViT 的理念,即在追求通用特征的过程中减少归纳偏置。由于非局部自注意力计算可以学习平移等变特征,它们也可以从某种形式的监督或自我监督预训练中学习尺度等变特征。
本文目标如下图所示,检测器仅从一个普通 ViT 主干的最后一个特征图构建一个简单的特征金字塔(如图 1 所示)。这一方案放弃了 FPN 设计和分层主干的要求。为了有效地从高分辨率图像中提取特征,他们的检测器使用简单的非重叠窗口注意力(没有 shifting)。他们使用少量的跨窗口块来传播信息,这些块可以是全局注意力或卷积。这些调整只在微调过程中进行,不会改变预训练。