NeurIPS2021-《YOLOS》-ViT现在可以做目标检测任务啦！华科提出目标检测新方法YOLOS...-CSDN博客

本文链接：https://blog.csdn.net/moxibingdao/article/details/121005867

YOLOS是基于视觉Transformer的目标检测模型，仅在ImageNet-1k预训练后，无需额外归纳偏置即可在COCO上实现42.0的box AP。与DETR相比，YOLOS仅查看输入序列，简化了结构并避免了2D结构的重建。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

写在前面

Transformer能在对2D空间结构了解最少的情况下，从序列到序列的角度执行2D对象级别识别吗？ 为了回答这个问题，作者提出了You Only Look at One Sequence（YOLOS） ，这是一个基于原始视觉Transformer的目标检测模型，尽可能少的进行模型修改和加入归纳偏置。

作者发现，仅在ImageNet-1k数据集上预训练的YOLOS已经能够在COCO上实现具有竞争力的目标检测性能，例如，YOLOS Base可以实现42.0 的box AP。

论文和代码地址

You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

论文地址：https://www.arxiv-vanity.com/papers/2106.00666/
代码地址：https://github.com/hustvl/YOLOS

Motivation

在自然语言处理 (NLP) 中，目前主流的方法是先在大型通用语料库上进行预训练Transformer以进行通用语言表示学习，然后在特定目标任务上对模型进行优化。最近，视觉Transformer (ViT) 证明了直接从NLP继承的Transformer编码器结构可以在大规模图像识别中表现出非常好的性能。

以图像patch嵌入序列作为输入，ViT可以从纯序列到序列的角度，将预训练的通用视觉表示迁移到更具体的图像分类任务。

由于预训练的Transformer可以在NLP中的句子级任务以及token级任务上进行微调，因此，作者提出了一个问题：ViT能否也迁移到计算机视觉中更复杂的任务中，例如目标检测？

ViT对远程依赖关系和全局上下文信息进行建模，而不是对局部和区域级别的关系进行建