(2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR))
先前关于自监督学习的研究已经在 图像分类 方面取得了相当大的进展,但通常 在目标检测方面的 迁移性能下降。本文的目的是推进 专门用于目标检测的 自监督预训练模型。
基于分类和检测之间的内在差异,本文提出了一种新的自监督前置任务,称为 实例定位 instance localization 。图像实例 被粘贴在不同的位置 并缩放到背景图像上。前置任务是 在 给定 合成图像 以及 前景边界框 的情况下 预测实例类别。
将边界框集成到预训练中 可以 促进迁移学习的更好的 任务对齐和 架构对齐。此外,本文 在边界框上 提出了一种 增强方法,以进一步增强特征对齐。结果,本文的模型在 Imagenet 语义分类方面变得更弱,但在图像块定位方面更强,具有 整体更强 的目标检测预训练模型。
实验结果表明,本文的方法为 PASCAL VOC 和 MSCOCO 上的目标检测产生了最先进的迁移学习结果。
1. Introduction
在计算机视觉中训练深度网络的主要范式是 预训练 和 微调。通常,预训练被优化以 找到一个 单一的通用表示,然后将其 迁移到各种下游应用。例如,使用图像级标签 [26、25] 的监督预训练模型 和 通过对比学习 [22] 进行的自监督预训练模型都 可以很好地迁移到许多任务,例如图像分类、目标检测、语义分割 和 人体姿态估计。
本文质疑 迁移学习的这种 通用 generic and universal 表示的存在。最近,提高图像分类性能的自监督表示 [3 SwAV, 21BYOL ] 可能 无法将优势转化为目标检测。此外,发现 高级特征 在迁移到 检测 和 分割 中并 不是真正重要的。当前的自监督模型可能会 过度拟合分类任务,而对其他感兴趣的任务则变得不那么有效。
导致迁移学习中 任务不对准 task misalignment 的两个问题。
首先是 预训练的网络 需要 重新用于 目标网络架构以进行 微调。这通常涉及重要的 架构更改,例如 插入特征金字塔 [27] 或 使用具有 大膨胀的卷积核 [4]。
其次,对于典型的对比学习模型,预训练前置任务 在 实例判别 中 整体地考虑图像 [41],而 不需要对区域进行 显式空间建模。尽管它增强了分类的 可迁移性,但这种做法 与空间推理任务的 兼容性较差,例如目标检测。
在本文中,提出了一种 新的自监督前置任务,称为 实例定位 instance localization,专门用于目标检测的下游任务。与为单个图像实例 学习分类器的 实例鉴别 instance discrimination 类似,实例定位 还考虑了 边界框信息 以进行表示学习。
本文 通过 裁剪前景图像 并将它们 以不同的纵横比 和 比例 粘贴到 背景图像的不同位置 来创建本文的训练集。接下来是 自监督预训练,使用 边界框 提取RoI特征 并 使用实例标签执行对比学习。这样,不仅网络架构在迁移过程中保持一致性,而且预训练任务还包括 定位建模 localization modelling ,这对于目标检测至关重要。
将边界框引入预训练 可以鼓励 卷积特征 和 前景区域 之间的 显式对齐。因此,特征响应 对 图像域中的转变 变得敏感,有利于检测 [10]。可以通过 对边界框坐标进行增强 来 加强特征对齐。具体来说,空间抖动的边界框 是从一组候选框锚框 中随机选择的。
本文在 动量对比 MoCo 的框架内实施该方法。该网络将 合成的图像 和 边界框作为输入,并 提取 区域嵌入 进行对比学习。与考虑整体实例的基线方法相比,对最后一层特征的线性探测显示图像分类的性能降低,同时在回归边界框位置方面取得了改进。在实验上,本文研究了两个流行的检测骨干网络 ResNet50-C4 和 ResNet50-FPN。对于这两个骨干网络,本文的实例定位方法 大大提高了性能,超过了 PASCAL VOC [17] 和 MSCOCO [28] 上最先进的迁移学习结果。值得注意的是,本文的模型对于