摘要
本文的目的是提出专门用于目标检测的自监督预训练模型。 基于分类和检测的内在差异,我们提出了一种新的自监督借口任务,称为实例定位。 图像实例被粘贴在不同的位置和尺度上的背景图像。 借口任务是预测给定组合图像的实例类别以及前景包围框。
Introduction
1、high-level feature并不是真正重要的转移到检测和分割
2、Task misalignment in transfer learning
(1)需要将预先训练过的网络重新放入目标网络体系结构中进行细化。 这通常涉及到非平凡的体系结构变化,例如插入特征金字塔[27]或使用大膨胀的卷积核
(2)对于典型的对比学习模型,前训练借口任务考虑图像的整体,例如歧视[41],没有明确的空间建模的区域。 虽然它提高了分类的可转移性,但这种实践与空间推理任务(如对象检测)不太兼容。
本文提出的方法在动量对比[22]的框架内实现了该方法。网络以合成图像和边界框作为输入,提取区域嵌入进行对比学习。
Pretext Task – Instance Localization
Object detection desires translation and
scale equivariance.
本文提出一个新颖的pretext任务,实例定位(InsLoc),作为实例歧视的扩展。 如图3所示,我们通过将前景实例覆盖到背景上来合成图像组合。 目的是利用包围框信息区分前景和背景。 为了实现这一任务,必须首先对前景实例进行定位,然后提取前景特征。
前景图片为
I
I
I,被bounding box
b
b
b覆盖的合成图片为
I
′
I^{\prime}
I′,任务是预测图片
I
I
I的实例标签
y
y
y:
Learning Approach
1、Instance Discrimination with Bounding Boxes
Instance Discrimination
对比学习采用两个随机的“视图”作为查询
I
q
I_q
Iq和关键的
I
k
+
I_{k_+}
Ik+图像,它们是从同一实例的随机增强得到的。对应的特征
v
q
v_q
vq和
v
q
+
v_{q_+}
vq+首先由骨干网络来提取(
v
q
=
f
(
I
q
)
v_q=f(I_q)
vq=f(Iq))。然后通过头网络
ϕ
\phi
ϕ投影到一个单元球。对比性的损失:
Spatial Modeling with Bounding Boxes
目标是加强输入区域和卷积特征之间的空间对齐,以及对区别实例的对比学习。因此,给定图像
I
I
I,首先采样随机采样一个背景图像
B
B
B,背景图像是训练集中的其他图像。之后,定义合成操作
C
C
C,它以一个随机的位置和比例将图像I的随机裁剪复制并粘贴到背景
B
B
B上。该操作返回合成的图像
I
′
I^{\prime}
I′和边界框参数
b
b
b,
这里使用不同的背景图片,不同的背景图像需要用于前景实例的两个视图。 否则,该模型可能会欺骗背景线索进行对比学习。
利用边界盒参数b,应用RoIarlign[24]提取卷积特征映射上的前景特征,
对于查询和关键特征,对比学习类似于等式2。
2、Bounding-Box Augmentation
图像增强在对比学习中发挥这重要的作用,gt bounding box可能包含背景上的区域,因此,可以进一步引导表示在空间上忽略背景并获得定位能力。
Augmentations as predefined anchors
锚是一组预定义的边框提案,具有不同的尺度、位置和纵横比。 给定一个gt,我们计算它的IoU对所有锚。 高重叠(大于0.5)的锚被过滤,并选择一个随机的作为增强框。