(八十三):Vision Transformer with Deformable Attention
- 出处:CoRR abs/2201.00520 (2022)
- 代码:https://github.com/LeapLabTHU/DAT
- 题目:具有变形注意力的视觉变压器
- 主要内容:提出了一种新型可变形自注意力模块,其中以数据相关的方式选择自注意力中键值对的位置,使得自注意力模块能够专注于相关区域,并捕获更多信息特征。
- 前两个阶段主要学习局部特征,
Abstract
Trnsformers最近在各种视觉任务上表现出卓越的表现。巨大的、有时甚至是全球性的接受域赋予Transformer模型比CNN模型更高的表现能力。然而,单纯扩大接受野也会引起一些问题。
一方面,在ViT中使用密集的注意力会导致内存和计算成本过高,并且特征会受到超出兴趣区域的不相关部分的影响。
另一方面,在PVT或Swin Transformer中采用的稀疏注意是数据不可知的,可能会限制建模长期关系的能力。
- 为了缓解这些问题,我们提出了一种新的可变形的自我注意模块,该模块以数据依赖的方式选择了自注意中的键和值对的位置。