介绍
transformer在自然语言处理领域取得了很大成功并且衍生出了诸多变体;在视觉方面虽然有前人尝试,但大多只是与Cnn相结合;其中一些完全取代了卷积,但由于使用了专门的注意力模式,尚未在现代硬件加速器上有效地扩展。
作者受 NLP 中 Transformer 拓展成功的启发,尝试将标准 Transformer 直接应用于图像,并尽可能减少修改。为此,他将图像拆分为块,并提供这些块的线性嵌入序列作为 Transformer 的输入。图像块的处理方式与 NLP 应用程序中的标记(单词)相同。
1. 在中小型数据集中,本论文提出的方法在同参数量情况下结果会逊色于resNet。原因显而易见:Transformer 缺乏 CNN 固有的一些归纳偏差,例如平移等效性和局部性,因此在数据量不足的情况下无法很好地泛化。
2. 在大规模数据集上训练时,发现 Vision Transformer (ViT) 在以足够的规模进行预训练并转移到数据点较少的任务时获得了出色的结果,ViT 在多个图像识别基准上接近或超过了最先进的水平;这一结果表明大规模训练胜过归纳偏差
前人工作
将自注意力简单地应用于图像需要每个像素都关注其他每个像素,然而这样的计算成本太高。
1. 帕尔马等人。 (2018)仅在每个查询像素的局部邻域中应用自我注意,而不是全局。这种局部多头点积自注意力块可以完全替代卷积。
2.Sparse Transformers (Child et al., 2019) 对全局自注意力采用可扩展的近似值,以便适用于图像。扩展注意力的另一种方法是将其应用于不同大小的块,在极端情况下仅沿单个轴