CVPR 2021 Instance Localization for Self-supervised Detection Pretraining

最新推荐文章于 2024-06-14 09:44:09 发布

Smiler_

最新推荐文章于 2024-06-14 09:44:09 发布

阅读量1.6k

点赞数 3

分类专栏：目标检测文章标签：计算机视觉机器学习深度学习目标检测

本文链接：https://blog.csdn.net/smiler_/article/details/115303933

版权

目标检测专栏收录该内容

7 篇文章 0 订阅

订阅专栏

摘要

本文的目的是提出专门用于目标检测的自监督预训练模型。基于分类和检测的内在差异，我们提出了一种新的自监督借口任务，称为实例定位。图像实例被粘贴在不同的位置和尺度上的背景图像。借口任务是预测给定组合图像的实例类别以及前景包围框。
在这里插入图片描述

Introduction

1、high-level feature并不是真正重要的转移到检测和分割
2、Task misalignment in transfer learning
(1）需要将预先训练过的网络重新放入目标网络体系结构中进行细化。这通常涉及到非平凡的体系结构变化，例如插入特征金字塔[27]或使用大膨胀的卷积核
（2）对于典型的对比学习模型，前训练借口任务考虑图像的整体，例如歧视[41]，没有明确的空间建模的区域。虽然它提高了分类的可转移性，但这种实践与空间推理任务（如对象检测）不太兼容。

本文提出的方法在动量对比[22]的框架内实现了该方法。网络以合成图像和边界框作为输入，提取区域嵌入进行对比学习。

Pretext Task – Instance Localization

Object detection desires translation and
scale equivariance.
本文提出一个新颖的pretext任务，实例定位（InsLoc）,作为实例歧视的扩展。如图3所示，我们通过将前景实例覆盖到背景上来合成图像组合。目的是利用包围框信息区分前景和背景。为了实现这一任务，必须首先对前景实例进行定位，然后提取前景特征。
在这里插入图片描述

前景图片为 $I$ ,被bounding box $b$ 覆盖的合成图片为 $I^{\prime}$ ,任务是预测图片 $I$ 的实例标签 $y$ ：
在这里插入图片描述

Learning Approach

1、Instance Discrimination with Bounding Boxes

Instance Discrimination
对比学习采用两个随机的“视图”作为查询 $I_q$ 和关键的 $I_{k_+}$ 图像，它们是从同一实例的随机增强得到的。对应的特征 $v_q$ 和 $v_{q_+}$ 首先由骨干网络来提取( $v_q=f(I_q)$ )。然后通过头网络 $\phi$ 投影到一个单元球。对比性的损失:
在这里插入图片描述
Spatial Modeling with Bounding Boxes
目标是加强输入区域和卷积特征之间的空间对齐，以及对区别实例的对比学习。因此，给定图像 $I$ ，首先采样随机采样一个背景图像 $B$ ，背景图像是训练集中的其他图像。之后，定义合成操作 $C$ ，它以一个随机的位置和比例将图像I的随机裁剪复制并粘贴到背景 $B$ 上。该操作返回合成的图像 $I^{\prime}$ 和边界框参数 $b$ ，
在这里插入图片描述
这里使用不同的背景图片，不同的背景图像需要用于前景实例的两个视图。否则，该模型可能会欺骗背景线索进行对比学习。
利用边界盒参数b，应用RoIarlign[24]提取卷积特征映射上的前景特征，

对于查询和关键特征，对比学习类似于等式2。

2、Bounding-Box Augmentation

图像增强在对比学习中发挥这重要的作用，gt bounding box可能包含背景上的区域，因此，可以进一步引导表示在空间上忽略背景并获得定位能力。
Augmentations as predefined anchors
锚是一组预定义的边框提案，具有不同的尺度、位置和纵横比。给定一个gt，我们计算它的IoU对所有锚。高重叠（大于0.5）的锚被过滤，并选择一个随机的作为增强框。