ViT-FRCNN:面向基于Transformer的目标检测

与DETR和可变形DETR范式不同,本文将ViT与RPN进行结合,即将CNN主干替换为transformer,组成为:ViT-FRCNN,作者称这可视为迈向复杂视觉任务(例如目标检测)纯transformer解决方案的重要基石。

注:文末附【Transformer】和【目标检测】学习交流群

Toward Transformer-Based Object Detection
在这里插入图片描述

  • 作者单位:Pinterest
  • 论文:https://arxiv.org/abs/2012.09958

背景

Transformers已成为NLP中的主要模型,这是因为它们具有对大量数据进行预训练,然后通过微调迁移到更小,更具体的任务的能力。

Vision Transformer(ViT)是将纯transformer模型直接应用于图像作为输入的首次重大尝试,这表明与卷积网络相比,基于transformer的体系结构可以在基准分类任务上取得有竞争力的结果。

但是,注意力运算的计算复杂性意味着我们仅限于低分辨率输入。对于诸如检测或分割之类的更复杂的任务,保持高输入分辨率对于确保模型可以正确识别并在其输出中反映出精细细节至

  • 2
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值