AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
Abstract当前Transformer结构已经变成了事实上标准自然语言处理任务,它在计算机视觉的应用还存在限制。在视觉中,注意力机制也用到了与卷积网络的结合,或者用来在保持整体结构不变的情况下替代特定组件。我们注意到这样的依赖性在CNN网络中并不是必须的,单纯对一系列图像块使用transformer也可以去的图像分类任务上很不错的成绩。当在大规模数据上进行预训练,迁移到多个中型或者小型是被benchmark(ImageNet,CIFAR-100,VTAB等)时,Vision Transformer(





