目标检测论文翻译——Instance Localization for Self-supervised Detection Pretraining（自监督）

最新推荐文章于 2023-04-19 14:40:46 发布

~拾捌~

最新推荐文章于 2023-04-19 14:40:46 发布

阅读量369

点赞数

分类专栏：目标检测文章标签：目标检测计算机视觉深度学习

原文链接：https://arxiv.org/pdf/2102.08318.pdf

版权

目标检测专栏收录该内容

7 篇文章 0 订阅

订阅专栏

目标检测论文翻译——Instance Localization for Self-supervised Detection Pretraining

（自监督检测预训练的实例定位）

文章目录

目标检测论文翻译——Instance Localization for Self-supervised Detection Pretraining
摘要
一、介绍
二、相关工作
三、Pretext任务–实例（Pretext Task – Instance Localization）
四、学习方法
五、实验结果
六、结论
参考文献

论文地址：https://arxiv.org/pdf/2102.08318.pdf
代码地址：https://github.com/limbo0000/InstanceLoc

摘要

先前关于自监督学习的研究已经在图像分类方面取得了相当大的进展，但在目标检测方面的传递性能通常会降低。本文的目的是提出专门用于对象检测的自监督预训练模型。基于分类和检测之间的固有差异，我们提出了一种新的自我监督的借口任务，称为实例定位。图像实例粘贴在不同的位置并缩放到背景图像上。借口任务是预测给定合成图像以及前景边界框的实例类别。我们表明，将边界框集成到预训练中可以促进迁移学习的更好的任务对齐和架构对齐。此外，我们提出了一种增强边界框的方法，以进一步增强特征对齐。结果，我们的模型在Imagenet语义分类方面变得较弱，但在图像块定位方面变得更强，总体上，对象检测的预训练模型更强。实验结果表明，我们的方法为PASCAL VOC和MSCOCO1上的对象检测产生了最先进的转移学习结果。

一、介绍

计算机视觉中训练深度网络的主要范式是通过预训练和微调[20，29]。通常，对预训练进行优化，以找到一个通用表示，然后将其传输到各个下游应用程序。例如，使用图像级别标签的监督预训练模型[26，25]和通过对比学习的自我监督预训练的模型[22]都非常好地转移到许多任务，例如图像分类、对象检测、语义分割和人类姿态估计。

最近，已经观察到，提高图像分类性能的自监督表示可能无法将优势转化为对象检测[3，21]。此外，人们发现，在转移到检测和分割中，高级特征并不是真正重要的[46]。这些表明，当前的自我监督模型可能过度适合分类任务，而对其他感兴趣的任务变得不那么有效。尽管这种方法很受欢迎，但我们对迁移学习中是否存在这种通用的和普遍的表示方式提出了质疑。

在这里插入图片描述
图1。对于视觉转移学习，人们普遍认为ImageNet分类精度和对象检测性能是正相关的。通过研究最近的自我监督模型，我们发现事实并非如此。我们提出了一种新的方法，称为实例定位（InsLoc），它牺牲了ImageNet的分类精度，但对对象检测具有更好的泛化能力。

我们确定了导致迁移学习中任务错位的两个问题。首先，需要将预训练的网络重新用于目标网络架构中进行微调。这通常涉及非平凡的架构更改，例如插入特征金字塔[27]或使用具有大扩展的卷积核[4]。第二，对于典型的对比学习模型，预训练借口任务在实例辨别中整体地考虑图像[41]，而没有对区域进行明确的空间建模。虽然它增强了分类的可传递性，但这种做法与空间推理任务（如对象检测）不太兼容。

在本文中，我们提出了一种新的自我监督的借口任务，称为实例定位，专门用于对象检测的下游任务。类似于为单个图像实例学习分类器的实例辨别，实例定位还将边界框信息考虑到表示学习中。我们通过拍摄前景图像并以不同的纵横比和比例将它们粘贴到背景图像的不同位置来创建训练集。通过使用边界框提取RoI特征并使用实例标签执行对比学习，进行自我监督预训练。这样，不仅网络架构在传输过程中保持一致性，而且预训练任务还包括定位建模，这对目标检测至关重要。

在预训练中引入边界框鼓励卷积特征和前景区域之间的显式对齐。因此，特征响应对图像域中的平移变得敏感，有利于检测[10]。我们还发现，通过在边界框坐标上引入增强，可以增强特征对齐。具体地，从一组区域建议锚中随机选择空间抖动的边界框。

我们在动量对比的框架内实施该方法[22]。该网络将合成图像和边界框作为输入，并提取区域嵌入以进行对比学习。与考虑整体实例的基线方法相比，在最后一层特征上的线性探针显示图像分类的性能降低，同时在回归边界框位置方面实现了改进。在实验上，我们研究了两个流行的检测骨干网络，ResNet50-C4和ResNet50-FPN。对于两个主干网络，我们的实例定位方法大大提高了性能，超过了PASCAL VOC[17]和MSCOCO[28]上最先进的转移学习结果。值得注意的是，我们的模型对于小数据状态下的对象检测更为有利。

二、相关工作

自我监督学习：自我监督学习的中心思想是从视觉数据中创建自由监督标签，并使用自由监督获得可推广和可转移的表示。借口任务的最简单形式之一是使用生成模型重建输入图像。生成模型中的潜在表示被认为是捕获输入分布的高级结构和语义流形。自动编码器[39]和Boltzmann机器[37]在手写数字上显示了这种能力，但在自然图像上无法工作。后来，GAN[47]的进步通过将潜在表征的神经反应分解为面部属性、姿势和照明条件，实现了对生成内容的操纵。最近关于BigBiGAN[14]和图像GPT[6]的研究表明，超大生成模型可以提供非常有前途的视觉识别表示。然而，仍然存在的一个基本问题是，学习生成图像像素如何与高级视觉理解相关。

除了重建图像像素之外，另一种借口任务是保留部分数据，然后从另一部分预测数据。着色[44]保留颜色信息，并尝试从灰度值预测颜色信息。上下文预测[12]将空间内容分割成3乘3的面片网格。然后训练网络以预测补丁之间的空间关系。制定借口任务的方式强烈影响从数据中学习到的知识。当同一类别中的对象共享相同的颜色时，着色方法往往有效。上下文预测假设一个类别的对象共享相同的空间配置。由于不同的借口任务提取了不同方面的视觉知识，因此结合其个人知识的多任务方法[13]提高了学习性能。

自我监督学习的一个流行的借口任务是对比学习，或者更具体地说是歧视[41]。训练数据集中的每个实例都被视为其自身的单个类别。学习目标只是将每个实例与其他实例进行分类。对比学习的关键组成部分是用于诱导不变量的数据扩充[41，22，7]。理想的数据扩充应该反映类内变化，常用的扩充包括裁剪、缩放、颜色抖动和模糊。最近关于对比学习的研究集中在开发更好的增强[3]，设计投影头结构[21]，甚至减轻负样本的需求[21]。尽管领先的对比学习方法BYOL和SwA V使用线性读取分类器将ImageNet性能提高到了令人印象深刻的74%，但它们对对象检测的传递性能实际上低于MoCo[22]。这表明，这些自监督方法过度适合于单个下游分类任务，而牺牲了对其他任务的泛化。

我们提出了一种新的用于自我监督预训练的借口任务，重点是转移到目标检测。在实例区分的基础上，我们介绍了在预训练阶段使用边界框。为了改进定位，我们的方法学习了一种表示，其中边界框与其对应的前景特征之间存在对齐。明确解决补丁级空间建模的现有工作包括CPC[33]和上下文预测[12]。这些工作基于图像内的补丁内容来解释空间排列。相反，我们的借口任务考虑了合成在一起的两个不同图像之间的空间关系。

对于图像和视频的自我监督学习，还有一系列其他借口任务，例如图像上的修补[35]、旋转预测[19]、拼图[32]和运动分割[34]，以及视频上的时间顺序[31]、时间速度[2]和同步[1]。对每个借口任务的详细调查和描述超出了本文的范围。

在这里插入图片描述
图2:实例本地化概述。给定一个前景图像实例，我们首先从图像库中随机抽取两个背景图像。生成前景图像的两个视图，并将其复制粘贴到相应的背景图像上。卷积网络获取每个合成视图，RoIAlign使用前景边界框坐标提取区域表示。对比学习遵循区域表征。为简洁起见，省略了负样本。

使用图像合成进行学习：通过将前景对象复制到背景上来创建合成图像是一种流行的数据增强技术。给定前景对象掩码，现有工作成功地将该技术应用于有监督的实例分割[16，18]和无监督的学习[45]。我们的工作还合成了图像合成，但不需要对象遮罩或干净的轮廓。

使用未标记数据进行自我训练：除了转移学习，当标记数据有限时，自我训练[42，48]是利用未标记数据的一个有前途的方向。其思想是通过在少数标记样本上使用监督学习来引导模型，以在未标记样本上生成伪标记。该模型通过在标签和伪标签上联合监督学习进一步优化。然而，当标签集稀缺时，自训练可能变得脆弱。如SimCLR-v2[8]中所述，可以将转移学习和自我训练结合起来。

三、Pretext任务–实例（Pretext Task – Instance Localization）

图像分类有利于平移和尺度不变性，其中各种尺度和位置的对象被简化为表示对象类别的单个离散变量。相反，物体检测需要平移和尺度等变。用于对象检测的特征表示应该能够保存和反映关于对象大小和位置的信息。这两个任务之间的固有差异需要为每个任务进行专门的建模。对比学习的最新工作集中于图像分类的设计技术。平移和尺度不变性是通过学习图像的两个随机视图之间的一致性来实现的。结果，实例辨别的借口任务过度适用于整体分类，无法促进空间推理。

我们提出了一个新的借口任务，称为实例本地化（InsLoc），作为实例歧视的扩展。如图3所示，我们通过在背景上叠加前景实例来合成图像合成。目的是使用边界框信息区分前景和背景。为了实现这一任务，必须首先定位前景实例，然后提取前景特征。

将合成图像表示为 $I^{'}$ ，前景图像 $I$ 覆盖在边界框 $b$ 上。任务 $\mathcal{T}$ 是预测 $I$ 的实例标签 $y$ ，
在这里插入图片描述

四、学习方法

我们的目标是学习一种不仅在语义上强大，而且在翻译和规模上也相当的表示。在第4.1节中，我们首先描述了将边界框表示引入对比学习框架的方法。在第4.2节中，边界框上的数据扩充是提高定位能力的有效方法。在第4.3节中，我们最后给出了我们在两个流行检测主干R50-C4和R50-FPN上的方法的架构细节。

在这里插入图片描述
图3。空间建模的边界框。红色框表示前景图像的地面真实边界框。在右侧，我们显示了一组以单个空间位置为中心的锚框。通过利用具有不同比例、位置和纵横比的多个锚，我们用IoU大于 $0.5$ 的蓝框来增强地面真实性。

4.1 带边界框的实例识别(Instance Discrimination with Bounding Boxes)

实例歧视。对比学习采用两个随机的“视图”作为查询 $I_q$ 和关键 $I_{k+}$ 图像，这两个视图是从同一实例的随机扩增中获得的。相应的特征 $v_q$ 和 $v_{k+}$ 首先由骨干网络 $f$ （例如 $v_q＝f（I_q）$ ）提取，然后通过头部网络 $\phi$ 投影到单位球体。对比损失，即InfoNCE[33]，计算如下
在这里插入图片描述
其中 $τ$ 和 $N$ 分别为温度和负样本数。

带边界框的空间建模。我们的目标是加强输入区域和卷积特征之间的空间对齐，以及区分实例的对比学习。为此，给定图像 $I$ ，我们首先对随机背景图像 $B$ 进行采样，该图像被简单地作为训练集中的任何其他图像。然后我们定义合成操作 $C$ ，它以随机位置和比例将图像I的随机裁剪复制并粘贴到背景 $B$ 上。该操作返回合成图像 $I^{'}$ 和边界框参数 $b$ ，
在这里插入图片描述
其中 $I q$ 和 $I_{k+}$ 是来自同一图像实例的农作物， $B_q$ 和 $B_{k+}$ 是它们各自的背景图像。在实践中，前景图像以随机纵横比 $3$ 和 $128$ 到 $256$ 像素之间的随机比例调整大小。使用边界框参数 $b$ ，RoIAlign[24]用于提取卷积特征图上的前景特征，
在这里插入图片描述
通过查询和关键特征，对比学习与公式2类似。图3说明了我们的框架。

使检测复杂化的问题是图像区域与其空间上对应的深度特征之间的差异。由于合并的深度特征的感受野通常在图像中远远超出合并区域，因此合并的特征受到其附近区域之外的图像内容的影响。因此，对于覆盖前景的边界框，其特征会受到周围背景的影响，使其更难定位。

我们使用边界框的实例区分以数据驱动的方式解决了这个问题。通过鼓励相同实例但具有不同背景的合并前景特征之间的相似性，学习有效的感受野以匹配边界框的空间范围。在卷积特征和它们的有效感受野之间建立这种明确的对应关系有助于用学习的表示进行定位。

4.2 边界框增强(Bounding-Box Augmentation)

图像增强在表征的对比学习中起着关键作用[15，7]。我们假设，类似的增强策略也可能对边界框有效。具体地，地面真实位置周围的抖动框可以包括背景上的区域。因此，可以进一步引导表示在空间上忽略背景并获得定位能力。

作为预定义锚点的增强。代替直接在空间上移动边界框，我们利用区域提议网络（RPN）[36]中的锚来覆盖增强框的多样性。锚是一组预定义的边界框方案，具有不同的比例、位置和纵横比。给定一个地面真相框，我们计算所有锚的IoU。过滤具有高重叠（大于 $0.5$ ）的锚点，并选择一个随机锚点作为增强框。由于基于锚的设计，我们能够获得具有动态IoU范围的各种箱提案。我们在查询编码器的RoIAlign模块上应用了边界框扩充，而动量编码器始终使用地面真值进行池化。
在这里插入图片描述
表1。PASCAL VOC上的对象检测。模型在trainval07+12上进行了微调，并在test2007上进行了测试。我们自己评估SimCLR、BYOL、SwA V模型，同时报告其原始论文的剩余结果。所有数字都是五次试验的平均值。

4.3 建筑线形(Architectural Alignment)

导致迁移学习中任务错位的一个关键问题是非平凡的架构调整。需要通过附加区域操作和头部网络，将预训练的网络重新定向为检测网络。我们引入的边界框表示允许最小化预训练和微调之间的架构差异。具体而言，预训练中的RoIAlign操作引入了区域表示，它紧密模拟了微调中的检测行为。我们在预训练期间提供了检测架构R50-C4和R50-FPN的详细信息。

R50-C4：在标准ResNet50架构上，我们在第4个残差块的输出上插入RoI操作。然后使用边界框坐标来提取区域特征。整个第5个残差块被视为用于分类区域的头部网络。

R50-FPN：R50-FPN使用横向连接在ResNet50之上形成4级功能层次。每个特征级别都负责以相应的比例建模对象。我们在FPN层次结构的所有级别上插入RoI操作。实例定位任务在所有4个特征级别上同时执行[43]，其中每个级别维护一个单独的负面示例的内存队列，以避免跨级别欺骗。这样，不仅可以对ResNet50网络，而且可以对FPN层进行预训练。

五、实验结果

我们在主流对象检测基准PASCAL VOC[17]和MSCOCO[28]上评估了我们的迁移学习模型的泛化能力。第5.1节给出了最先进的比较的主要实验结果。第5.2节对语义分类和定位之间的权衡进行了消融研究和讨论。在第5.3节中，我们对MSCOCO的迷你版进行了一次实验，以证明我们的模型在少量标记数据下的快速泛化能力。

数据集：具有 $130$ 万张图像的ImageNet数据集[11]用于预训练，而PASCAL VOC[17]和MSCOCO[28]用于转移学习。PASCAL VOC0712在20个对象类别中包含约 $16.5 K$ 个带有边框注释的图像。MSCOCO在 $80$ 个对象类别中包含约 $118 K$ 个带有边界框和实例分割注释的图像。

预训练：我们主要遵循MoCo-v2[9]的官方实现中的超参数。我们在 $8$ 个GPU上使用同步SGD优化模型，权重衰减为 $0.0001$ ，动量为 $0.9$ ，每个GPU上的批处理大小为 $32$ 。优化需要 $200 - 400$ 个时期，初始学习率为 $0.03$ ，余弦学习率调度[30]。两层MLP头用于对比学习，温度参数在等式2中设置为 $0.2$ 。我们还维护了 $65536$ 个负样本的内存队列。动量系数设置为 $0.999$ ，用于更新密钥编码器。

数据增强：在预训练期间，前景内容的图像增强遵循MoCo-v2[9]。具体来说，我们应用了随机调整大小的裁剪、颜色抖动、灰度、高斯模糊和水平翻转。甚至更强的增强可能会进一步提高传输性能[38，7]，但这超出了我们的工作重点。

微调Fine-tuning：骨干网络从预训练任务转移到下游任务。在MoCov2[9]之后，在所有层（包括新初始化的批处理规范化层）中使用同步批处理规范。使用detectron2[40]实现和微调探测器。

5.1 主要结果

我们提供了目标检测的实验结果，并将其性能与最先进的方法进行了比较。SimCLR[7]和BYOL[21]的预训练权重是从第三方实现借来的，而MoCo[22]、InfoMin[38]和SwA V[3]的权重是从其官方实现中收集的。

在这里插入图片描述
表2。COCO上的对象检测和实例分割。车型在2017年train上进行了微调，并在2017年val。

5.1.1 PASCAL VOC对象检测

设置：我们使用具有R50C4主干架构的Faster R-CNN检测器[36]。优化总共需要 $24 k$ 次迭代。学习率被初始化为 $0.02$ ，在 $18 k$ 和 $22$ k迭代后衰减为 $10$ 倍。图像比例在 $[480, 800]$ 像素内进行训练，并在推断时设置为 $800$ 。 $A P$ 、 $AP_{50}$ 和 $AP_{75}$ 被示出为评估度量。

结果：转移结果汇总在表1中。由于方差较大，所有值在五次独立试验中取平均值。我们报告了 $200$ 个时期和 $400$ 个时期的预训练结果。与我们的直接基线MoCo-v2[9]相比，我们的模型在 $200$ 和 $800$ 个时期分别获得了 $+ 0.9$ 和 $+ 1.0 A P$ 的改进。它还优于所有以前的方法，而不使用复杂和更强的数据增强，如RandAugment或Multi-crop。我们的预训练模型获得了该基准测试的最新结果。

5.1.2 PASCAL VOC对象检测

设置。我们将Mask R-CNN[24]框架与R50C4和R50-FPN骨干网络一起使用。由于先前的文献[23]表明，当训练计划非常长时，具有随机初始化的检测器可以匹配COCO[28]上的受监督对应物，因此我们在 $2 \times$ 计划上进行了此转移实验，优化迭代次数为 $180 k$ 。学习率初始化为 $0.02$ ，在 $120 k$ 和 $160 k$ 迭代后衰减为 $10$ 倍。图像比例在 $[640 ， 800]$ 像素内用于训练，设置为 $800$ 用于测试。 $A P$ 、 $AP_{50}$ 和 $AP_{75}$ 被示为用于边界框检测和实例分割的评估度量。

结果：表2显示了R50-C4（表2a）和R50-FPN（表2b）的结果。APbb和APmk分别表示边界框检测和实例掩码分割的AP。经过 $200$ 个时期的预训练，对于R50-C4和R50-FPN主干，InsLoc以 $+ 0.7$ 和 $+ 1.5 A P$ 的成绩优于直接基线MoCo-v2[22]。经过 $400$ 个时期的预训练，InsLoc达到了新的艺术性能状态，超越了所有先前的自我监督模型，并具有可能更强的图像增强功能。特别是，InsLoc引入了对完全监督的ImageNet预训练的显著改进，即R50-C4和R50-FPN分别为 $+ 1.8$ 和 $+ 1.7 A P$ 。值得注意的是，当模型预处理时间更长时，InfoMin显示传输性能降低。BYOL和SwA V对于R50-FPN主干具有竞争力，但对于R50C4主干相对较弱。我们的模式在各个方面都始终如一地强大。

5.2 消融研究

为了进一步了解实例定位的优势，我们进行了一系列消融研究，以检查语义和定位权衡、新借口任务的影响、使用更长的时间表进行微调以及在更多优化时期进行预训练。

改进是否由于更强的语义特征：最近的方法倾向于将线性对象分类作为学习表示的核心评估度量，这是基于一个假设，即具有更强语义的表示总是能够很好地转换到其他下游任务。为了进一步研究和理解所提出的目标检测方法的改进，我们设计了一个新的读出任务来评估预训练模型的定位能力。

具体来说，给定一个输入图像，我们将整个图像分割成M个补丁。任务是使用线性分类器基于补丁的区域特征来预测每个补丁的位置。图4说明了M等于9时的此任务。虽然先前关于上下文预测的工作[12]预测了两个面片之间的相对空间位置，但我们的评估任务转而考虑了面片相对于整个图像的空间排列。对于每个补丁，我们通过主干网络转发、提取RoI特征并通过头部网络传递来提取其向量表示。我们附加了一个线性分类器来预测补丁索引。我们认为，该任务类似于检测管道，并反映了预训练模型的定位能力。
在这里插入图片描述
（a）语义与本地化。给出了线性分类（Cls）和定位（Loc）的线性读出精度以及整体微调检测AP。探测器架构为R50-C4。

（b） RoiAlign（RA）被插入到基线中以反映体系结构更改。然后执行实例定位任务，即将前景图像复制并粘贴（CP）到背景图像上以学习空间对齐。最终应用了边界框增强（BBA）。实验在R50FPN架构上进行。
表3。消融研究。在COCO val2017集合中，所有数字都以1×时间表报告。

表3a显示了语义和定位准确性的比较。实例本地化为线性定位任务带来了 $2.3\%$ 的明显改进，而在线性分类中MoCo-v2的性能则下降了 $6.0\%$ 。这表明，对对象检测的总体改进主要是由于更好的空间定位，而不是更强的语义。这些结果也符合最近的一项发现[46]，即自我监督的预训练不会传递用于对象检测的高级语义，而更重要的是低级和中级传递。我们还将BYOL和SW A V的条目纳入表3a中的本地化评估。它们较差的定位能力限制了转移到目标检测的有效性。

实例定位借口任务的有效性：表3b显示了多个组件的消融研究：架构对齐、实例定位任务和拟议的边界框增强。我们首先集成RoiAlign运算符，以减轻基线模型的架构更改。具体而言，从网络中汇集和提取整体表征，然后进行对比学习。此外，应用了FPN层次结构上的多个对比损失（第4.3节），导致总体改善 $0.4 AP^{bb}$ 。这些改进证明了为检测传输调整架构的有效性。然后，我们将实例定位任务应用于具有复制粘贴操作和边界框表示的合成图像，性能达到 $41.1 AP^{bb}$ ，显示出比MoCov2高 $+ 1.3$ 的明显优势。最后，当在边界框上应用空间抖动时，结果进一步提高到 $41.4 AP^{bb}$ 。这些结果有力地验证了新借口任务的有效性，即实例定位和相应的增强。

在这里插入图片描述
图4。线性定位评估。我们将一幅自然图像分割成一个区域补丁网格。对于每个区域，我们提取其向量表示并训练线性分类器来预测整个图像中的区域索引。

微调时间表的影响：随着迭代次数的增加，微调下游对象检测任务可以提高对象检测性能。我们研究了微调时间表如何影响预训练模型的相对改进。在表4中，我们研究了在 $1 x$ 和 $2 x$ 微调调度下对象检测向COCO的转移。使用R50-C4， $1 \times$ 计划的 $0.6 AP^{bb}$ 改进转化为 $2 \times$ 计划的 $0.7 AP^{bb}$ 改进。R50-FPN也获得了类似的观察结果。这些结果表明，较长的微调可能不会显著削弱相对改善，证明了预训练模型在迁移学习中的实用性。

长时间预处理的效果：ImageNet线性分类精度大大受益于较长的预处理。例如，通过将预训练时期的数量从 $200$ 增加到 $800$ ，MoCo-v2从 $67.5\%$ 提高到 $71.1\%$ 。然而，对于对象检测，如InfoMin[38]所示，较长的预训练可能是有害的。在表4中，我们报告了 $400$ 个优化时期的预训练模型在COCO上的传输性能。与预训练 $200$ 个时期的模型相比，更长的预训练获得了一致的改进和新的最先进性能。甚至更长的 $800$ 个时期的预训练在计算上都很昂贵，我们将其留给未来的工作。
在这里插入图片描述
表4。在COCO上与MoCo-v2进行对象检测和实例分割的基线比较。R50-C4和R50-FPN主干在 $1 \times$ 和 $2 \times$ 计划下进行微调。

5.3 小型COCO评估

由于其数据集的规模，将学习转移到COCO的意义可能有限。先前的文献[5]也表明，从零开始进行COCO培训，学习时间很长，可以提供一个强有力的基线。为了证明我们的预训练模型在少量标记数据下的泛化能力，我们在COCO数据集的小型版本上进行了实验。

数据集：我们从最初的2017年训练集中随机选择 $10\%$ 的训练数据（约 $11.8 K$ 张图像）作为迷你COCO。总训练数据与PASCAL VOC相似[17]。物体在尺度和纵横比方面的巨大差异仍然特别具有挑战性。我们使用MSCOCO[28]的完整验证集（即val2017），其中包含 $5 K$ 张注释图像用于评估。

微调：微调协议与整个COCO保持一致。我们使用R50-C4骨干网，并对网络进行 $12$ 个时期的微调。在最后一个残差块之后插入一个附加的批次归一化层。

结果：表5总结了结果。与MoCo-v2相比，我们获得了 $3.3AP^{bb}$ 和 $2.4AP^{mk}$ 的大幅改进，与监督方法相比，我们得到了 $3.1AP^{bb}$ 和 $2.3AP^{mk}$ ，证明了优越的泛化和传递能力。请注意，Mini COCO的增益比原始COCO上的增益大得多。这样的结果清楚地表明，我们的预训练模型对于迁移学习更具数据效率。
在这里插入图片描述
表5。Mini COCO上的对象检测。模型在2017年COCO培训的 $10\%$ 上进行了 $12$ 个阶段的微调，并在2017年评估。

六、结论

我们提出了一个新的实例定位任务，并介绍了边界框在自监督表示学习中的应用。预训练的模型在整体图像分类中表现得较弱，但在斑块定位中表现得更强。当转移到物体检测时，它相对于基准MoCo实现了显著的改进，并在VOC和COCO方面获得了最先进的结果。我们还表明，当标记的数据特别小时，我们的方法获得了更大的增益。实验结果表明，通过改进任务对齐，可以增强目标检测的传递性能。

致谢。该项目由创新技术基金下的感知与交互智能中心（CPII）有限公司提供部分支持。我们还感谢赵南轩、徐英豪和戴波的深入讨论。

参考文献

在这里插入图片描述

~拾捌~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
目标检测论文翻译——Instance Localization for Self-supervised Detection Pretraining（自监督）

先前关于自监督学习的研究已经在图像分类方面取得了相当大的进展，但在目标检测方面的传递性能通常会降低。本文的目的是提出专门用于对象检测的自监督预训练模型。基于分类和检测之间的固有差异，我们提出了一种新的自我监督的借口任务，称为实例定位。图像实例粘贴在不同的位置并缩放到背景图像上。借口任务是预测给定合成图像以及前景边界框的实例类别。我们表明，将边界框集成到预训练中可以促进迁移学习的更好的任务对齐和架构对齐。此外，我们提出了一种增强边界框的方法，以进一步增强特征对齐。
复制链接

扫一扫