【自监督论文阅读笔记】Instance Localization for Self-supervised Detection Pretraining

最新推荐文章于 2023-04-19 14:40:46 发布

YoooooL_

最新推荐文章于 2023-04-19 14:40:46 发布

阅读量2.1k

点赞数

分类专栏：论文阅读笔记文章标签：深度学习计算机视觉目标检测

本文链接：https://blog.csdn.net/YoooooL_/article/details/127732268

版权

（2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)）

        先前关于自监督学习的研究已经在图像分类方面取得了相当大的进展，但通常在目标检测方面的迁移性能下降。本文的目的是推进 专门用于目标检测的 自监督预训练模型。
        基于分类和检测之间的内在差异，本文提出了一种新的自监督前置任务，称为 实例定位 instance localization 。图像实例被粘贴在不同的位置并缩放到背景图像上。前置任务是 在给定合成图像以及前景边界框的情况下预测实例类别。
        将边界框集成到预训练中 可以促进迁移学习的更好的任务对齐和架构对齐。此外，本文在边界框上提出了一种增强方法，以进一步增强特征对齐。结果，本文的模型在 Imagenet 语义分类方面变得更弱，但在图像块定位方面更强，具有整体更强的目标检测预训练模型。
        实验结果表明，本文的方法为 PASCAL VOC 和 MSCOCO 上的目标检测产生了最先进的迁移学习结果。

1. Introduction

在计算机视觉中训练深度网络的主要范式是 预训练和微调。通常，预训练被优化以找到一个单一的通用表示，然后将其迁移到各种下游应用。例如，使用图像级标签 [26、25] 的监督预训练模型和通过对比学习 [22] 进行的自监督预训练模型都可以很好地迁移到许多任务，例如图像分类、目标检测、语义分割和人体姿态估计。

本文质疑迁移学习的这种通用 generic and universal 表示的存在。最近，提高图像分类性能的自监督表示 [3 SwAV, 21BYOL ] 可能无法将优势转化为目标检测。此外，发现 高级特征在迁移到检测和分割中并不是真正重要的。当前的自监督模型可能会 过度拟合分类任务，而对其他感兴趣的任务则变得不那么有效。

导致迁移学习中任务不对准 task misalignment 的两个问题。

首先是预训练的网络需要重新用于目标网络架构以进行微调。这通常涉及重要的架构更改，例如插入特征金字塔 [27] 或使用具有大膨胀的卷积核 [4]。

其次，对于典型的对比学习模型，预训练前置任务 在实例判别中整体地考虑图像 [41]，而不需要对区域进行显式空间建模。尽管它增强了分类的可迁移性，但这种做法与空间推理任务的兼容性较差，例如目标检测。

在本文中，提出了一种新的自监督前置任务，称为实例定位 instance localization，专门用于目标检测的下游任务。与为单个图像实例学习分类器的 实例鉴别 instance discrimination 类似，实例定位还考虑了 边界框信息 以进行表示学习。

本文通过裁剪前景图像并将它们以不同的纵横比和比例粘贴到背景图像的不同位置来创建本文的训练集。接下来是自监督预训练，使用边界框提取RoI特征并使用实例标签执行对比学习。这样，不仅网络架构在迁移过程中保持一致性，而且预训练任务还包括定位建模 localization modelling ，这对于目标检测至关重要。

将边界框引入预训练 可以鼓励卷积特征和前景区域之间的显式对齐。因此，特征响应 对图像域中的转变变得敏感，有利于检测 [10]。可以通过对边界框坐标进行增强来加强特征对齐。具体来说，空间抖动的边界框是从一组候选框锚框中随机选择的。

本文在 动量对比 MoCo 的框架内实施该方法。该网络将合成的图像和边界框作为输入，并提取 区域嵌入 进行对比学习。与考虑整体实例的基线方法相比，对最后一层特征的线性探测显示图像分类的性能降低，同时在回归边界框位置方面取得了改进。在实验上，本文研究了两个流行的检测骨干网络 ResNet50-C4 和 ResNet50-FPN。对于这两个骨干网络，本文的实例定位方法大大提高了性能，超过了 PASCAL VOC [17] 和 MSCOCO [28] 上最先进的迁移学习结果。值得注意的是，本文的模型对于