顶刊TPAMI 2024!QFormer:四边形注意力的视觉Transformer

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Transformer】交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

6f0f6b7ce58f85f77b0f7e2fee7c098a.jpeg

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

一句话总结

本文提出一种新颖的四边形注意力(QA)方法,进而提出QFormer:一种视觉新主干,仅需少量代码修改和忽略不计的额外成本,在分类/检测/分割/姿态估计等视觉任务上性能表现出色!代码将开源!

论文信息

cc478d112c13817784ff431f664eaabe.png

Vision Transformer with Quadrangle Attention

单位:悉尼大学(陶大程团队)

论文:https://arxiv.org/abs/2303.15105

代码:https://github.com/ViTAE-Transformer/QFormer

研究背景

基于窗口的注意力因其优越的性能、较低的计算复杂度和更少的内存占用而成为视觉转换器的流行选择。然而,手工制作的窗口的设计与数据无关,限制了Transformer适应不同大小、形状和方向的对象的灵活性。

算法细节

为了解决这个问题,本文提出了一种新颖的四边形注意力(QA)方法,将基于窗口的注意力扩展到一般的四边形公式。

0b643f404ed2d11ce00d5e1f310a080c.png

我们的方法采用端到端可学习四边形回归模块,该模块预测转换矩阵,将默认窗口转换为目标四边形以进行标记采样和注意力计算,使网络能够对具有不同形状和方向的各种目标进行建模并捕获丰富的上下文信息。

c13e423611c049b9e7bd02ce149a5270.png

edd7ebfb73d4ad0e81d388a70afff61d.png

我们将 QA 集成到普通和分层视觉Transformer中,以创建一个名为 QFormer 的新架构,它提供了少量的代码修改和可以忽略不计的额外计算成本。

7746e98de2ae554e230679b084118196.png

4e2b6ebd2c7285f619bc90ed3750ebfc.png

实验结果

对公共基准的大量实验表明,QFormer 在各种视觉任务上都优于现有的代表性视觉Transformer,包括分类、目标检测、语义分割和姿势估计。

图像分类性能表现:

ac512a20d8b8d74f713146b3c66e6800.png

目标检测性能表现:

75473a75bfd32b90c589e3b766a8c591.png

e13c2d80b153d367e99a4aa17adb441b.png

语义分割性能表现:

14a638391557049ca9145d8f34e8b06f.png

姿态估计性能表现:

6772d41544362a516ce22faaf461acbc.png

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

 
 
Transformer交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-Transformer微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值