AN IMAGE IS WORTH 16X16 WORDS TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
https://github.com/google-research/vision_transformer
作为一种self-attention架构,transformer的主要方法是在一个较大文本语料库进行预训练,然后在一个小的特定任务数据集上进行微调。但是实验表明,在中等尺寸数据集训练后,分类正确率相比于ResNet上往往降低几个百分点,这是由于transformer缺乏CNN的固有的inductive bias 如 translation equivariance and locality,因而在数据不充分情况时不能很好泛化。而在数据尺寸足够的情况下训练transfprmer,是能够应对这种inductive bias,实现对流行模型的性能逼近甚至超越。
本文采用将transformer直接应用在图像上,进行很少的微调,将图像拆分成碎片,然后将图片碎片的the sequence of linear embedding作为Transformer的输入。图片碎片可以看做NLP中的tokens也就是words,以有监督模式训练网络。
实验结果表明,大规模的训练能够应对inductive bias,并且Vision Transformer ViT从较大规模网络迁移至数据点较少的任务中时,表现良好,能够接近或者超过原有性能。
背景知识:
Transformer由Vaswani于2017年提出用于机器翻译。
图像领域的self-attention要求每一个像素关注其他像素,这导致像素数量的二次开销,因而无法扩展至实际的输入大小?????
相关工作&