UP-DETR：用无监督的方式对Transformer进行预训练来做物体检测

最新推荐文章于 2024-05-14 21:29:18 发布

ronghuaiyang

最新推荐文章于 2024-05-14 21:29:18 发布

阅读量2.2k

点赞数

文章标签：人工智能计算机视觉深度学习机器学习神经网络

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

因公众号更改了推送规则，记得读完点“在看”~下次AI公园的新文章就能及时出现在您的订阅列表中

作者：Synced

编译：ronghuaiyang

导读

不仅对CNN的backbone预训练，Transformer也要预训练，而且还是无监督的。

论文地址：https://arxiv.org/pdf/2011.09094.pdf

华南理工大学和腾讯微信人工智能研究人员的一项新研究是利用Transformer架构进行目标检测的最新成果。该团队提出了一个他们称为random query patch detection的任务，用无监督的方式预训练DETR(检测变压器)的目标检测。无监督预训练的DETR (UP-DETR)显著提高了DETR的性能，在流行的目标检测数据集PASCAL VOC和COCO上具有更快的收敛速度和更高的精度。

今年5月，Facebook AI Research推出了DETR框架，通过Transformer编码器-解码器架构，将物体检测视为直接预测问题。它已经达到了与SOTA方法(如Faster R-CNN基线)竞争的性能。

“然而，DETR带来了训练和优化方面的挑战，这需要大规模的训练数据和超长的训练计划。”该团队指出。这样的缺点已经阻碍了DETR性能的进一步改进。研究人员深入研究了DETR结构，确定CNN骨干已被预先训练，以提取良好的视觉表征，但Transformer模块未被预训练。

这是提高性能的关键吗？无监督视觉表征学习在设计良好的代理任务方面取得了显著进展，MoCo和SwAV等模型脱颖而出。但目前的代理任务不能直接应用于训练前的DETR，主要集中在空间定位学习，而不是基于图像实例或聚类的对比学习。

一般来说，无监督学习计算机视觉pipeline包括一个代理任务和一个真正的下游任务，这可能涉及分类或检测不充分的标注数据。Pretext任务需要学习将用于下游任务的视觉表征。

团队着手设计一种新的基于目标检测的DETR架构的预训练Transformer的代理任务，开发了一种random query patch detection method来预训练一个不需要人工标注的DETR检测器。从输入图像中随机裁剪多个query patch后，对Transformer进行预训练，用于检测和预测给定图像中query patch的边界框。这一方法解决了两个关键问题：

多任务学习：避免query patch检测破坏分类特征
多query定位：不同的目标query关注不同的位置区域和框大小。针对多query patches ，研究人员开发了object query shuffle和attention mask方法来解决query patches 和object query之间的分配问题。

在评估中，UP-DETR以更高的精度和更快的收敛速度大大优于DETR。在具有挑战性的COCO数据集上，UP-DETR在ResNet50骨干下提供了42.8 AP(平均精度)，在收敛速度和精度上都优于DETR。

研究人员表示，他们希望未来的研究能够将CNN和Transformer的预训练整合到一个统一的端到端框架中，并将UP-DETR应用于额外的下游任务，如 few-shot目标检测和目标跟踪。

—END—

英文原文：https://medium.com/syncedreview/up-detr-unsupervised-random-query-patch-detection-pretrains-transformers-for-object-detection-6655bc1473fa

请长按或扫描二维码关注本公众号

喜欢的话，请给我个在看吧！

ronghuaiyang

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
UP-DETR：用无监督的方式对Transformer进行预训练来做物体检测

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”因公众号更改了推送规则，记得读完点“在看”~下次AI公园的新文章就能及时出现在您的订阅列表中作者：Synced编译：ronghua...
复制链接

扫一扫