本文提出CPVT:条件Position encoding视觉Transformer,可以自然地处理任意长度的输入序列,其中PEG模块可以无缝集成到现有框架中,性能优于DeiT、ViT等网络
Do We Really Need Explicit Position Encodings for Vision Transformers?
- 代码:https://github.com/Meituan-AutoML/CPVT
- 论文下载链接:https://arxiv.org/abs/2102.10882
- 作者单位:美团, 阿德莱德大学
几乎所有的视觉Transformers(例如ViT或DeiT)都依赖于预定义的positional encodings来合并每个输入token的顺序。这些编码通常被实现为不同频率的可学习的固定维度矢量或正弦函数,无法适应可变长度的输入序列。这不可避免地限制了Transformer在视觉领域的广泛应用,在视觉领域中,许多任务需要即时更改输入大小。
在本文中,我们提出采用条件position encoding方案,该方案以输入token的局部邻域为条件。它被轻松实现为我们所谓的Position Encoding Generator(PEG),可以将其无缝集成到transformer框架中。我们使用PEG的新模型称为Conditional Position encoding Visual Transformer (CPVT),可以自然地处理任意长度的输入序列。