题目:Unsupervised Pre-Training for Detection Transformers
用于检测Transformer的无监督预训练
作者:Zhigang Dai; Bolun Cai; Yugeng Lin; Junying Chen
源码链接: https://github.com/dddzg/up-detr
摘要
DETECTION TRansformer (DETR) 作为目标检测的一种框架,通过Transformer编码器-解码器架构,达到了与 Faster R-CNN 相媲美的竞争力。然而,DETR 在从头开始训练Transformer时,需要大规模训练数据和在 COCO 数据集上极其漫长的训练时间表。受到自然语言处理中Transformer预训练巨大成功的启发,我们提出了一种新颖的预训练任务,名为 Unsupervised Pre-training DETR (UP-DETR) 中的随机查询块检测。具体而言,我们从给定图像中随机裁剪块,然后将它们作为查询输入到解码器。该模型预训练用于从输入图像中检测这些查询块。在预训练期间,我们解决了两个关键问题:多任务学习和多查询定位。(1) 为了在预训练任务中权衡分类和定位偏好,我们发现冻结 CNN 骨架是预训练Transformer成功的先决条件。(2) 为了执行多查询定位,我们开发了带有注意力掩码的 UP-DETR,用于多查询块检测。此外,UP-DETR 还为微调目标检测和一次性检测任务提供了统一视角。在我们的实验中,UP-DETR 显著提高了 DET