QFormer：四边形注意力的视觉Transformer

最新推荐文章于 2024-09-15 15:29:29 发布

hellozhxy

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量63

点赞数

文章标签：人工智能 transformer

原文链接：https://zhuanlan.zhihu.com/p/678312736

版权

本文提出一种新颖的四边形注意力(QA)方法，进而提出QFormer：一种视觉新主干，仅需少量代码修改和忽略不计的额外成本，在分类/检测/分割/姿态估计等视觉任务上性能表现出色！代码将开源！

论文信息

Vision Transformer with Quadrangle Attention单位：悉尼大学（陶大程团队）论文：https://arxiv.org/abs/2303.15105代码：https://github.com/ViTAE-Transformer/QFormer研究背景

基于窗口的注意力因其优越的性能、较低的计算复杂度和更少的内存占用而成为视觉转换器的流行选择。然而，手工制作的窗口的设计与数据无关，限制了Transformer适应不同大小、形状和方向的对象的灵活性。

算法细节

为了解决这个问题，本文提出了一种新颖的四边形注意力（QA）方法，将基于窗口的注意力扩展到一般的四边形公式。

我们的方法采用端到端可学习四边形回归模块，该模块预测转换矩阵，将默认窗口转换为目标四边形以进行标记采样和注意力计算，使网络能够对具有不同形状和方向的各种目标进行建模并捕获丰富的上下文信息。

我们将 QA 集成到普通和分层视觉Transformer中，以创建一个名为 QFormer 的新架构，它提供了少量的代码修改和可以忽略不计的额外计算成本。

实验结果

对公共基准的大量实验表明，QFormer 在各种视觉任务上都优于现有的代表性视觉Transformer，包括分类、目标检测、语义分割和姿势估计。

图像分类性能表现：

目标检测性能表现：

语义分割性能表现：

姿态估计性能表现：

本文转自 CVer公众号，仅用于学术分享，如有侵权联系删除

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。