与DETR和可变形DETR范式不同,本文将ViT与RPN进行结合,即将CNN主干替换为transformer,组成为:ViT-FRCNN,作者称这可视为迈向复杂视觉任务(例如目标检测)纯transformer解决方案的重要基石。
注:文末附【Transformer】和【目标检测】学习交流群
Toward Transformer-Based Object Detection
- 作者单位:Pinterest
- 论文:https://arxiv.org/abs/2012.09958
背景
Transformers已成为NLP中的主要模型,这是因为它们具有对大量数据进行预训练,然后通过微调迁移到更小,更具体的任务的能力。
Vision Transformer(ViT)是将纯transformer模型直接应用于图像作为输入的首次重大尝试,这表明与卷积网络相比,基于transformer的体系结构可以在基准分类任务上取得有竞争力的结果。
但是,注意力运算的计算复杂性意味着我们仅限于低分辨率输入。对于诸如检测或分割之类的更复杂的任务,保持高输入分辨率对于确保模型可以正确识别并在其输出中反映出精细细节至