Toward Transformer-Based Object Detection

本文提出ViT-FRCNN模型,将Transformer应用于目标检测,作为从CNN过渡到复杂视觉任务的重要步骤。该模型在COCO数据集上表现出竞争力,并在大型物体和域外图像上具有优势,减少了对非极大值抑制的依赖。文章还分享了Transformer和目标检测学习交流群的信息。
摘要由CSDN通过智能技术生成

与DETR和可变形DETR范式不同,本文将ViT与RPN进行结合,即将CNN主干替换为transformer,组成为:ViT-FRCNN,作者称这可视为迈向复杂视觉任务(例如目标检测)纯transformer解决方案的重要基石。

注:文末附【Transformer】和【目标检测】学习交流群

Toward Transformer-Based Object Detection
在这里插入图片描述

  • 作者单位:Pinterest
  • 论文:https://arxiv.org/abs/2012.09958

背景

Transformers已成为NLP中的主要模型,这是因为它们具有对大量数据进行预训练,然后通过微调迁移到更小,更具体的任务的能力。

Vision Transformer(ViT)是将纯transformer模型直接应用于图像作为输入的首次重大尝试,这表明与卷积网络相比,基于transformer的体系结构可以在基准分类任务上取得有竞争力的结果。

但是,注意力运算的计算复杂性意味着我们仅限于低分辨率输入。对于诸如检测或分割之类的更复杂的任务,保持高输入分辨率对于确保模型可以正确识别并在其输出中反映出精细细节至关重要。这自然引发了一个问题,即基于transformer的体系结构(例如Vision Transformer)是否能够执行除分类以外的任务。

V

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值