【自监督论文阅读笔记】Instance Localization for Self-supervised Detection Pretraining

2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

        先前关于自监督学习的研究已经在 图像分类 方面取得了相当大的进展,但通常 在目标检测方面的 迁移性能下降。本文的目的是推进 专门用于目标检测的 自监督预训练模型
        基于分类和检测之间的内在差异,本文提出了一种新的自监督前置任务,称为 实例定位 instance localization 。图像实例 被粘贴在不同的位置 并缩放到背景图像上。前置任务 在 给定 合成图像 以及 前景边界框 的情况下 预测实例类别
        将边界框集成到预训练中 可以 促进迁移学习的更好的 任务对齐和 架构对齐。此外,本文 在边界框上 提出了一种 增强方法,以进一步增强特征对齐。结果,本文的模型在 Imagenet 语义分类方面变得更弱,但在图像块定位方面更强,具有 整体更强 的目标检测预训练模型
        实验结果表明,本文的方法为 PASCAL VOC 和 MSCOCO 上的目标检测产生了最先进的迁移学习结果。


1. Introduction

        在计算机视觉中训练深度网络的主要范式是 预训练 和 微调。通常,预训练被优化以 找到一个 单一的通用表示,然后将其 迁移到各种下游应用。例如,使用图像级标签 [26、25] 的监督预训练模型 和 通过对比学习 [22] 进行的自监督预训练模型都 可以很好地迁移到许多任务,例如图像分类、目标检测、语义分割 和 人体姿态估计。

        本文质疑 迁移学习的这种 通用 generic and universal 表示的存在。最近,提高图像分类性能的自监督表示 [3 SwAV, 21BYOL ] 可能 无法将优势转化为目标检测。此外,发现 高级特征 在迁移到 检测 和 分割 中并 不是真正重要的。当前的自监督模型可能会 过度拟合分类任务,而对其他感兴趣的任务则变得不那么有效。

        导致迁移学习中 任务不对准 task misalignment 的两个问题。

首先是 预训练的网络 需要 重新用于 目标网络架构以进行 微调。这通常涉及重要的 架构更改,例如 插入特征金字塔 [27] 或 使用具有 大膨胀的卷积核 [4]。

其次,对于典型的对比学习模型,预训练前置任务 在 实例判别 中 整体地考虑图像 [41],而 不需要对区域进行 显式空间建模。尽管它增强了分类的 可迁移性,但这种做法 与空间推理任务的 兼容性较差,例如目标检测

        在本文中,提出了一种 新的自监督前置任务,称为 实例定位 instance localization专门用于目标检测的下游任务。与为单个图像实例 学习分类器的 实例鉴别 instance discrimination 类似,实例定位 还考虑了 边界框信息 以进行表示学习

        本文 通过 裁剪前景图像 并将它们 以不同的纵横比 和 比例 粘贴到 背景图像的不同位置 来创建本文的训练集。接下来是 自监督预训练,使用 边界框 提取RoI特征 并 使用实例标签执行对比学习。这样,不仅网络架构在迁移过程中保持一致性,而且预训练任务还包括 定位建模 localization modelling ,这对于目标检测至关重要

        将边界框引入预训练 可以鼓励 卷积特征 和 前景区域 之间的 显式对齐。因此,特征响应 对 图像域中的转变 变得敏感,有利于检测 [10]。可以通过 对边界框坐标进行增强 来 加强特征对齐。具体来说,空间抖动的边界框 是从一组候选框锚框 中随机选择的

        本文在 动量对比 MoCo 的框架内实施该方法。该网络将 合成的图像 和 边界框作为输入,并 提取 区域嵌入 进行对比学习。与考虑整体实例的基线方法相比,对最后一层特征的线性探测显示图像分类的性能降低,同时在回归边界框位置方面取得了改进。在实验上,本文研究了两个流行的检测骨干网络 ResNet50-C4 和 ResNet50-FPN。对于这两个骨干网络,本文的实例定位方法 大大提高了性能,超过了 PASCAL VOC [17] 和 MSCOCO [28] 上最先进的迁移学习结果。值得注意的是,本文的模型对于

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值