关注公众号,发现CV技术之美
本文分享 NeurIPS 2021 论文『Aligning Pretraining for Detection via Object-Level Contrastive Learning』MSRA提出对象级对比学习的目标检测预训练方法!性能SOTA!
详细信息如下:
论文链接:https://arxiv.org/abs/2106.02637
项目链接:https://github.com/hologerry/SoCo
导言:
![bbc8c0ec3d311ef48581dc72520cefaf.png](https://img-blog.csdnimg.cn/img_convert/bbc8c0ec3d311ef48581dc72520cefaf.png)
图像级对比表征学习已被证明是一种非常有效的迁移学习模式。然而,如果对特定的下游任务有需求,这种泛化的迁移学习模式就失去了针对性。作者认为这可能是次优的,并且提出自监督的预训练任务应该与下游任务之间保持一致的设计原则 。在本文中,作者遵循了这一原则,并专门为目标检测任务设计了一种预训练方法。作者主要在以下三个方面实现了一致:
1)通过选择性搜索边界框引入对象级表示作为对象proposal;
2)预训练网络结构结合了检测pipeline中使用的专用模块 (例如FPN);
3)预训练具有目对象级平移不变性、尺度不变性等目标检测属性。
本文提出的方法称为选择性对象对比学习 (Selective Object COntrastive learning,SoCo) ,它基于Mask R-CNN框架在COCO检测中实现了SOTA的迁移性能。
01
Motivation
预训练和微调一直是计算机视觉中深层神经网络训练的主要范式。下游任务通常利用在大型标注数据集 (例如ImageNet) 上学习的预训练权重进行初始化。因此,有监督的ImageNet预训练在整个领域都很普遍。
近年来,自监督预训练取得了相当大的进步,减轻了对标注数据的依赖。这些方法旨在通过图像级预训练任务来学习各种下游任务的通用视觉表征。最近的一些工作表明,图像级表示对于密集预测任务(如目标检测和语义分割)是次优的。一个潜在的原因是,图像级预训练可能过度适用于整体表示,无法了解图像分类之外的重要属性 。
本文的目标是开发与目标检测相一致的自监督预训练。在目标检测中,检测框用于对象的表示。目标检测的平移和尺度不变性由边界框的位置和大小来反映。图像级预训练和对目标检测的对象级边界框之间存在明显的表示差距。
基于此,作者提出了一个对象级自监督预训练框架,称为选择性对象对比学习(Selective Object COntrastive learning, SoCo),专门用于目标检测的下游任务 。为了将对象级表示引入预训练,SoCo利用选择性搜索生成对象proposal。
不同于先前的图像级对比学习方法,将整张图片作为作为一个实例,SoCo将图像中的每个对象proposal视为一个独立的实例。
因此,作者设计了一个新的预训练任务,用于学习与目标检测兼容的对象级视觉表示。具体而言,SoCo构造了对象级视图,其中相同对象实例的尺度和位置得到了增强。随后进行对比学习,以最大程度地提高对象在增强视图中的相