目录
受到Transformer在NLP中扩展成功的启发,我们尝试将标准Transformer直接应用到图像上,并且尽可能少地进行修改。为此,我们将图像分割成小块,并将这些小块的线性嵌入序列(即图像小方块经过FC层映射到一个抽象空间上)作为变压器的输入。每个小块(Image patches)的处理方式和NLP的词嵌入向量的处理方式相同。
首先Transformer是比较吃数据的,作者在中等规模的数据集ImageNet上面测试了ViT,发现比ResNet的结果要低几个百分点,这也在作者的预料之中,文中给出的分析原因是因为ViT没有CNN那样的归纳偏置。
然鹅,作者在大规模的数据集上的训练,战胜了归纳偏置,战胜了当前模型的最优结果。
相关工作:
Transformer是2017年谷歌提出的,已经成为许多NLP任务的最先进的方法。BERT和GPT都是基于大型Transformer进行微调的预训练模型。
之前的Transformer应用在图像上面的很多工作有:1.对图片的每个像素计算自注意力;2.在图像的局部应用自注意力;3.在不同大小的块中应用注意力
另一个最近的相关模型是图像GPT (iGPT) ,该模型在降低图像分辨率和颜色空间后,将transformer应用于图像像素。该模型以无监督的方式作为生成模型进行训练,结果表示可以微调或线性探测分类性能,在ImageNet上达到72%的最大精度。