摘要
虽然Transformer架构在自然语言处理任务中已经成为事实标准,但是它在计算机视觉领域的应用仍然受限。在视觉领域,注意力要么和卷积网络结合使用,要么替换卷积网络中的某些部分,同时保持整体结构不变。本文表明对CNNs的依赖不是必要的,纯转换器(pure transformer)直接应用于图像块(image patches)序列在图像分类任务中能发挥很好的作用。当对大量数据进行预训练并把它转移到多个中型或者小型图像识别基准(ImageNet,CIFAR-100,VTAB,etc.)中,与SOTA卷积网络相比,Vision Transformer(ViT)获得了出色的结果,同时训练时需要更少的计算资源。
介绍
基于自我注意力的架构,尤其是Transformers(Vaswani et al., 2017),已经成为自然语言处理(NLP)中首选模型。主要方法是在大型文本语料库上进行预训练,然后在较小的特定任务数据集上进行微调。因为Transformers较好的计算效率和可扩展性,训练具有100B参数的前所未有的模型成为可能。随着模型和数据集的发展,性能还有很大的提升空间。
在计算机视觉领域,卷积结构仍然占主导地位。受NLP成功的启发,多项工作都尝试将类似CNN的结构与注意力机制结合,有些甚至取代了卷积。这种直接取代卷积虽然理论上可行,但是由于使用专门的注意力模式,还没有在现代硬件加速器上有效扩展。因此,在大规模图像识别中,经典的类似ResNet架构仍然是最好的。
受NLP中Transformer缩放成功的启发,本文

最低0.47元/天 解锁文章
1308

被折叠的 条评论
为什么被折叠?



