Efficient Multi-Head Self-Attention
论文: ResT: An Efficient Transformer for Visual
Recognition
Efficient注意力介绍
本文提出了一个高效的多尺度视觉变换器,称为ResT,它可以作为图像识别的通用支柱。可以作为图像识别的通用骨干。不同于
现有的变换器方法,采用标准的变换器模块来处理具有固定分辨率的原始图像。
我们的ResT有几个优点:
- 构建了一个内存高效的多头自关注,它通过简单的深度卷积压缩了内存。
- 构建了一个内存高效的多头自我注意,它通过一个简单的深度卷积来压缩内存,并将交互作用投射到整个
注意力-头的维度,同时保持多头的多样性能力;(2)
位置编码被构建为空间注意,它更加灵活,可以处理任意的输入图像。 - 位置编码是以空间注意的形式构建的,它更加灵活,可以处理任意大小的输入图像,不需要插值或微调;
- 我们没有在每个阶段的开始直接进行标记化,而是将补丁嵌入设计为堆栈式。
而不是在每个阶段的开始直接进行标记化,我们把补丁嵌入设计成一个叠加的卷积操作,并在标记图上有一个跨度。
符号图上的跨度。我们在图像分类中全面验证了ResT和下游任务上进行全面验证。实验结果表明,提出的ResT可以在很大程度上超过了最近的最先进的骨干网