摘要
使用密集注意力(例如在ViT中)会导致过多的内存和计算成本,并且特征可能会受到超出感兴趣区域的无关部分的影响。另一方面,在PVT或Swin Transformer中采用的稀疏注意是数据不可知的,可能会限制对长期关系建模的能力。为了缓解这些问题,我们提出了一种新的可变形的自我注意模块,其中键和值对在自我注意中的位置以数据依赖的方式选择。这种灵活的方案使自关注模块能够专注于相关区域,并捕获更多信息特征。在此基础上,我们提出了变形注意Transformer,这是一种适用于图像分类和密集预测任务的具有变形注意的通用骨干模型。
DAT代码链接
论文链接
本文方法
核心在于学习相对位置编码以及求参考点的位移信息,使得注意力更加关注想要的区域
(a)表示DAT模块。在左侧,在特征图上统一放置一组参考点,其偏移量由偏移网络从query中学习。
然后从采样的特征中根据变形点投影变形的键和值,如图右侧所示。通过变形点计算相对位置偏差,增强了输出变形特征的多头注意力。为了清晰地展示,我们只展示了4个参考点,实际上在实际实现中还有更多的参考点
(b)揭示了offset生成网络的详细结构,标记为每一层的输入和输出特征图的大小
模型结构