关注公众号,发现CV技术之美
本篇分享论文『SP-ViT: Learning 2D Spatial Priors for Vision Transformers』,曼海姆大学&香港理工&阿里(华先胜团队)提出 SP-ViT,为视觉 Transformer 学习 2D 空间先验知识!
详细信息如下:
论文地址:https://arxiv.org/abs/2206.07662
代码地址:未开源
01
摘要
最近,Transformer 在图像分类方面显示出巨大的潜力,并在 ImageNet 基准上建立了最先进的结果。然而,与 CNN 相比,transformer 收敛速度较慢,并且由于缺乏空间归纳偏置,在低数据状态下容易过度拟合。这种空间归纳偏差可能特别有益,因为输入图像的 2D 结构在Transformer 中没有得到很好的保留。
在这项工作中,作者提出了空间先验增强自注意 (SP-SA),这是一种为视觉Transformer量身定制的普通自注意 (SA) 的新变体。空间先验(SPs)是本文提出的一系列归纳偏置,它突出了某些空间关系组。与被迫只关注硬编码局部区域的卷积归纳偏置不同,本文提出的 SP 是由模型本身学习的,并考虑了各种空间关系。
具体来说,注意力分数的计算重点是每个头的某些类型的空间关系,并且这些学习到的空间焦点可以相互补充。基于 SP-SA,作者提出了 SP-ViT 系列,它始终优于其他具有类似 GFlops 或参数的 ViT 模型。本文最大的模型 SP-ViT-L 实现了 86.3% 的 Top-1 准确度,与之前的最先进模型相比,参数数量减少了近 50%。
02
Motivation
在主导自然语言处理 (NLP) 任务之后,Transformers最近在图像分类方面取得了令人兴奋的成果。所有Transformer的核心是所谓的自注意力机制,它全局捕获所有输入token对之间的内容关系,并有选择地关注相关对。与卷积相比,自注意力更灵活,卷积是通过硬编码专门捕获局部依赖关系的。
这可能为Transformer模型配备更大的容量和更大的计算机视觉任务潜力。正如最近的工作所报道的那样,当在大型数据集上进行预训练时,Transformer的性能优于卷积神经网络 (CNN),并通过预训练 CNN 的知识蒸馏或伪标签来促进。
尽管如此,CNN 的泛化能力和收敛速度都比 Vision Transformers (ViT) 更好。这表明卷积中使用的某些类型的归纳偏置仍然可以有益于解决视觉任务。因此,最近的许多研究提出以不同的方式将卷积归纳偏置纳入 ViT,并且都证明了性能的提升。卷积的有效性依赖于自然图像的相邻像素高度相关的事实,但在卷积滤波器的局部感受野之外可能存在其他高度相关的内容被忽略。
因此,作者提出同时利用各种归纳偏置,就像人类在日常生活中所做的那样,例如,如果我们看到一个水平物体的一部分,我们自然会顺着它的方向看,而不是将我们的视线限制在局部范围内。
在这项工作中,作者通过称为空间先验增强自注意 (SP-SA) 的普通自注意 (SA) 的扩展,将名为空间先验 (SPs) 的新型归纳偏置系列引入 ViT。SP-SA 根据 key 和 query patch 的相对位置在每个注意力头突