DAT:Vision Transformer with Deformable Attention

这篇文章是相对于Swin-Transformer和PVT进行改进,加入了可变形机制,同时控制网络不增加太多的计算量,作者认为,缩小q对应的k的范围,能够减少无关信息的干扰,增强信息的捕捉,于是引入了到注意力模块中,提出了一种新的注意力模块:可变形多头注意力模块——对k和v进行DCN偏移后再计算注意力。将这个模块替换到Swin-Transformer的第三四阶段的滑动窗口注意力部分,获得了较好的实验性能。原文链接:Vision Transformer with Deformable Attention源码地
摘要由CSDN通过智能技术生成

在这里插入图片描述
在这里插入图片描述

这篇文章是相对于Swin-Transformer和PVT进行改进,加入了可变形机制,同时控制网络不增加太多的计算量,作者认为,缩小q对应的k的范围,能够减少无关信息的干扰,增强信息的捕捉,于是引入了DCN机制到注意力模块中,提出了一种新的注意力模块:可变形多头注意力模块——对k和v进行DCN偏移后再计算注意力。将这个模块替换到Swin-Transformer的第三四阶段的滑动窗口注意力部分,获得了较好的实验性能。

原文链接:Vision Transformer with Deformable Attention
源码地址:https://github.com/LeapLabTHU/DAT

Abstract

我们知道Transformer模型比CNN模型具有更高的表现能力。因为他有着全局的感受野,只有着建模长距离关系的能力。但是单纯扩大感受野也会引起一些问题。

  1. 在ViT中使用密集的注意力会导致内存和计算成本过高,特征会受到超出相关区域的无关部分的影响。
  2. 在PVT或Swin Transformer 中采用的稀疏注意力是数据不可知的,可能会限制建模长期关系的能力。

为了缓解这些问题,本文提出了一种新的可变形的自注意力模块,该模块以数据依赖的方式选择自注意力中的key和value对的位置。这种灵活的方案使自注意力模块能够聚焦于相关区域并捕获更多信息。

在此基础上,提出了一种可变形注意力Transformer(Deformable Attention Transformer)模型,该模型具有可变形注意力,适用于图像分类和密集预测任务。大量的实验表明,本文的模型在综合基准上取得了持续改进的结果。

1 Introduction

Transformer最初是用来解决自然语言处理任务的。它最近在计算机视觉领域显示出巨大的潜力。Transformer第一次应用于视觉领域的工作Vision Transformer(ViT)将多个Transformer块堆叠在一起,以处理非重叠的图像patch(即视觉Token)序列,从而产生了一种无卷积的图像分类模型。与CNN模型相比,基于Transformer的模型具有更大的感受野,擅长于建模长期依赖关系,在大量训练数据和模型参数的情况下取得了优异的性能。然而,视觉识别中的过度关注是一把双刃剑,存在多重弊端。具体来说,每个query patch中参与的key数过多会导致较高的计算成本和较慢的收敛速度,并增加过拟合的风险。

为了避免过度的注意力计算,已有的研究设计了高效注意力模块来降低计算复杂度。其中有两种具有代表性的方法:

  1. Swin Transformer采用基于Window的局部注意力来限制Local Window中的注意力;
  2. Pyramid Vision Transformer(PVT)则通过对key和value特征映射进行采样来节省计算量。

理想情况下,给定query的候选key/value集应该是灵活的,并且能够适应每个单独的输入。

在DCN中已经证明了学习卷积滤波器的可变形感受野已被证明在依赖于数据的基础上有选择性地关注更多信息区域是有效的。受到该启示或许可以将DCN引入到Vision Transformer中,探索一种可变形的注意力模式。这种想法会来带不合理的高内存/计算复杂度:由Deformable offsets引入的开销是patch数量的平方。因此,虽然已经有一些工作研究了变形机制的思想,但由于计算成本高,没有人将其作为构建强大的Backbone(如DCN)的基本构件,只是用作一些辅助模块

而在本文中提出了一种简单有效的可变形的自注意力模块,并在此模块上构造了一个强大的Pyramid Backbone,即可变形的注意力Transformer(Deformable Attention Transformer, DAT),用于图像分类和各种密集的预测任务。不同于DCN:在整个特征图上针对不同像素学习不同的offset,DAT中学习几组与query无关的offset(所有query共享),将key和value移到重要区域。不同query的全局注意力通常会导致几乎相同的注意力模式。这种设计既保留了线性空间的复杂性,又为Transformer的主干引入了可变形的注意力模式。

在这里插入图片描述

2 Method

现有的分层Vision Transformer,特别是PVT和Swin Transformer试图解决过度关注(减少计算量)的问题。前者的降采样技术会导致严重的信息丢失,而后者的注意力转移会导致感受野的增长要慢得多,这限制了建模大物体的能力。因此,需要一种依赖数据的稀疏注意力来灵活地建模相关特征。这也启发我们将DCN引入Transformer中。

然而,怎样在Transformer模型中实现 DCN 是一个重要且复杂的问题。在DCN中,特征图上的每个元素分别学习其offset,其中 H × W × C H×W×C H×W×C特征图上的 3 × 3 3×3 3×3可变形卷积的空间复杂度为 9 H W C 9HWC 9HWC。如果直接在自注意力模块应用相同的机制,空间复杂度将急剧上升 N q N k C N_qN_kC NqNkC N q N_q Nq N k N_k N

  • 5
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值