CVPR 2021 Instance Localization for Self-supervised Detection Pretraining

摘要

本文的目的是提出专门用于目标检测的自监督预训练模型。 基于分类和检测的内在差异,我们提出了一种新的自监督借口任务,称为实例定位。 图像实例被粘贴在不同的位置和尺度上的背景图像。 借口任务是预测给定组合图像的实例类别以及前景包围框。
在这里插入图片描述

Introduction

1、high-level feature并不是真正重要的转移到检测和分割
2、Task misalignment in transfer learning
(1)需要将预先训练过的网络重新放入目标网络体系结构中进行细化。 这通常涉及到非平凡的体系结构变化,例如插入特征金字塔[27]或使用大膨胀的卷积核
(2)对于典型的对比学习模型,前训练借口任务考虑图像的整体,例如歧视[41],没有明确的空间建模的区域。 虽然它提高了分类的可转移性,但这种实践与空间推理任务(如对象检测)不太兼容。

本文提出的方法在动量对比[22]的框架内实现了该方法。网络以合成图像和边界框作为输入,提取区域嵌入进行对比学习。

Pretext Task – Instance Localization

Object detection desires translation and
scale equivariance.
本文提出一个新颖的pretext任务,实例定位(InsLoc),作为实例歧视的扩展。 如图3所示,我们通过将前景实例覆盖到背景上来合成图像组合。 目的是利用包围框信息区分前景和背景。 为了实现这一任务,必须首先对前景实例进行定位,然后提取前景特征。
在这里插入图片描述

前景图片为 I I I,被bounding box b b b覆盖的合成图片为 I ′ I^{\prime} I,任务是预测图片 I I I的实例标签 y y y
在这里插入图片描述

Learning Approach

1、Instance Discrimination with Bounding Boxes

Instance Discrimination
对比学习采用两个随机的“视图”作为查询 I q I_q Iq和关键的 I k + I_{k_+} Ik+图像,它们是从同一实例的随机增强得到的。对应的特征 v q v_q vq v q + v_{q_+} vq+首先由骨干网络来提取( v q = f ( I q ) v_q=f(I_q) vq=f(Iq))。然后通过头网络 ϕ \phi ϕ投影到一个单元球。对比性的损失:
在这里插入图片描述
Spatial Modeling with Bounding Boxes
目标是加强输入区域和卷积特征之间的空间对齐,以及对区别实例的对比学习。因此,给定图像 I I I,首先采样随机采样一个背景图像 B B B,背景图像是训练集中的其他图像。之后,定义合成操作 C C C,它以一个随机的位置和比例将图像I的随机裁剪复制并粘贴到背景 B B B上。该操作返回合成的图像 I ′ I^{\prime} I和边界框参数 b b b
在这里插入图片描述
这里使用不同的背景图片,不同的背景图像需要用于前景实例的两个视图。 否则,该模型可能会欺骗背景线索进行对比学习。
利用边界盒参数b,应用RoIarlign[24]提取卷积特征映射上的前景特征,
在这里插入图片描述
对于查询和关键特征,对比学习类似于等式2。

2、Bounding-Box Augmentation

图像增强在对比学习中发挥这重要的作用,gt bounding box可能包含背景上的区域,因此,可以进一步引导表示在空间上忽略背景并获得定位能力。
Augmentations as predefined anchors
锚是一组预定义的边框提案,具有不同的尺度、位置和纵横比。 给定一个gt,我们计算它的IoU对所有锚。 高重叠(大于0.5)的锚被过滤,并选择一个随机的作为增强框。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值