作者丨FlyEgle
编辑丨极市平台
论文名称: CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION
论文链接: https://arxiv.org/pdf/2108.00154.pdf
论文代码:https://github.com/cheerss/CrossFormer
1. 出发点
Transformers模型在处理视觉任务方面已经取得了很大的进展。然而,现有的vision transformers仍然不具备一种对视觉输入很重要的能力:在不同尺度的特征之间建立注意力。
- 每层的输入嵌入都是等比例的,没有跨尺度的特征;
- 一些transformers模型为了减少self-attention的计算量,衰减了key和value的部分特征表达。
2. 怎么做
为了解决上面的问题,提出了几个模块。
- Cross-scale Embedding Layer (CEL)
- Long Short Distance Attention (LSDA)
- Dynamic Position Bias (DPB)
这里1和2都是为了弥补了以往架构在建立跨尺度注意力方面的缺陷,3的话和上面的问题无关,是为了使相对位置偏差更加灵活,更好的适合不定尺寸的图像和窗口。这篇文章还挺讲究,不仅提出两个模块来解决跨尺度特征attention,还附送了一个模块来搞一个搞位置编码。
阅读全文:深度探讨 CrossFormer 如何解决跨尺度问题
推荐大家关注极市平台公众号,每天都会更新最新的计算机视觉论文解读、综述盘点、调参攻略、面试经验等干货~