Vision Transformer with Deformable Attention

摘要

使用密集注意力(例如在ViT中)会导致过多的内存和计算成本,并且特征可能会受到超出感兴趣区域的无关部分的影响。另一方面,在PVT或Swin Transformer中采用的稀疏注意是数据不可知的,可能会限制对长期关系建模的能力。为了缓解这些问题,我们提出了一种新的可变形的自我注意模块,其中键和值对在自我注意中的位置以数据依赖的方式选择。这种灵活的方案使自关注模块能够专注于相关区域,并捕获更多信息特征。在此基础上,我们提出了变形注意Transformer,这是一种适用于图像分类和密集预测任务的具有变形注意的通用骨干模型。
DAT代码链接
论文链接

本文方法

核心在于学习相对位置编码以及求参考点的位移信息,使得注意力更加关注想要的区域
在这里插入图片描述(a)表示DAT模块。在左侧,在特征图上统一放置一组参考点,其偏移量由偏移网络从query中学习。
然后从采样的特征中根据变形点投影变形的键和值,如图右侧所示。通过变形点计算相对位置偏差,增强了输出变形特征的多头注意力。为了清晰地展示,我们只展示了4个参考点,实际上在实际实现中还有更多的参考点
(b)揭示了offset生成网络的详细结构,标记为每一层的输入和输出特征图的大小
模型结构
在这里插入图片描述
在这里插入图片描述

消融实验

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨小杨1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值