本文提出一种新颖的四边形注意力(QA)方法,进而提出QFormer:一种视觉新主干,仅需少量代码修改和忽略不计的额外成本,在分类/检测/分割/姿态估计等视觉任务上性能表现出色!代码将开源!
论文信息
Vision Transformer with Quadrangle Attention单位:悉尼大学(陶大程团队)论文:https://arxiv.org/abs/2303.15105代码:https://github.com/ViTAE-Transformer/QFormer研究背景
基于窗口的注意力因其优越的性能、较低的计算复杂度和更少的内存占用而成为视觉转换器的流行选择。然而,手工制作的窗口的设计与数据无关,限制了Transformer适应不同大小、形状和方向的对象的灵活性。
算法细节
为了解决这个问题,本文提出了一种新颖的四边形注意力(QA)方法,将基于窗口的注意力扩展到一般的四边形公式。
我们的方法采用端到端可学习四边形回归模块,该模块预测转换矩阵,将默认窗口转换为目标四边形以进行标记采样和注意力计算,使网络能够对具有不同形状和方向的各种目标进行建模并捕获丰富的上下文信息。
我们将 QA 集成到普通和分层视觉Transformer中,以创建一个名为 QFormer 的新架构,它提供了少量的代码修改和可以忽略不计的额外计算成本。
实验结果
对公共基准的大量实验表明,QFormer 在各种视觉任务上都优于现有的代表性视觉Transformer,包括分类、目标检测、语义分割和姿势估计。
图像分类性能表现:
目标检测性能表现:
语义分割性能表现:
姿态估计性能表现:
本文转自 CVer公众号,仅用于学术分享,如有侵权联系删除