AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

Abstract

当前Transformer结构已经变成了事实上标准自然语言处理任务,它在计算机视觉的应用还存在限制。在视觉中,注意力机制也用到了与卷积网络的结合,或者用来在保持整体结构不变的情况下替代特定组件。我们注意到这样的依赖性在CNN网络中并不是必须的,单纯对一系列图像块使用transformer也可以去的图像分类任务上很不错的成绩。当在大规模数据上进行预训练,迁移到多个中型或者小型是被benchmark(ImageNet,CIFAR-100,VTAB等)时,Vision Transformer(ViT)与SOTA的卷积方法相比去的了优秀的表现,并且大幅度减少对训练中计算资源的要求。

  1. Introduction

基于自注意力的结构(self-attention-based),特别是Transformer(Vaswani et al. 2017),成为了自然语言处理模型的选择。主流的方式是在大型语料库上进行预训练,然后在小的专用任务数据集上进行微调(Devlin et al. 2019)。归功于Transformer的计算高效与可伸缩性,它可以训练超大尺寸的模型,超过100B参数量(Brown et al.2020;Lepikhin et al.2020)。随着模型与数据集的增长,并没有出现表现饱和的趋势。

在计算机世界中,然而,卷积结构任然处于主导地位(LeCun et al.1989;Krizhevsky et al.2012lHe et al.2016)。受到NLP领域成功的带动,许多工作都尝试将CNN样式结构与自注意力机制进行融合(Wang et al.2018;Carion et al.2020),有些整体替代了卷积结构(Ramachandran et al.2019;Wang et al.2020a)。在后续的模型中,尽管理论上有效,由于特定注意力模式的使用,并没有明显高效的提升在当前硬件加速器上的效率。因此在打过莫图像识别中,经典的ResNet样式的结构还是保持着SOTA(Mahajan et al.2018;Xie et al.2020;Kolesnikov et al.2020)。

受到Transformer在NLP领域的巨大成功的启发,我们尝试将标准的Transformer直接应用在图像处理中,尽可能的保持原有结构化不做修改。为了实现上述实验,我们将一张样本切分为图像块,将这些图像块的线性嵌入序列作为输入,到Transformer里。图像块被类似NLP应用中的tokens(单词)的方式进行处理。我们用有监督的方式训练图像分类模型。

当在没有强约束的情况下,在例如ImageNet的中等大小数据集上训练时,这些模型的精度比同等规模的ResNets低几个百分点。这个看似令人沮丧的结果可能是意料之中的:Transformers缺乏cnn固有的一些归纳偏差,如平移等方差和局域性,因此在数据量不足的情况下无法很好地进行泛化训练。

然而,如果模型是在大型数据集上(14M-300M样本)训练,情况会不一样。我们发现大规模训练胜过归纳偏差。我们的视觉Transformer(ViT)当在大规模数据集上训练并迁移到少量数据集上的时候取得了很好的结果。当在公开数据集ImageNet-21K数据集或者JFT-300M数据集上预训练时,ViT达到或者超过了SOTA的多样本分类benchmark。特别是,最好的模型在ImageNet上达到88.55%的准确率,在ImageNet-Real上获得90.72%,在CIFAR-100上取得94.55%,在VTAB suite的19个任务上达到77.63%。

  1. Related Work

Transformer是由Vaswani et al.(2017)提出用于机器翻译,从那时开始就成为了NLP任务的SOTA。大型基于Transformer的模型通常在大型语料库上训练,然后针对手头任务进行微调:BERT(Devlin et al.,2019)使用一种去噪自监督预训练任务,而GPT系列工作使用语言模型作为预训练任务(Radford et al., 2018; 2019; Brown et al., 2020)。

原生的图像的self-attention应用会要求每个像素与每个其它像素之间的注意力关系。计算代价是像素数的二次方,且实际输入大小不能变化。因此,为了将transformer应用在图像中,过去已经有了一些类似的尝试。Parmar et al. (2018)将自注意力机制应用在近邻像素而不是全局的所有像素。这种局部多头点积自注意块可以完全替代卷积 (Hu et al., 2019; Ramachandran et al., 2019; Zhao et al., 2020)。在另外一系列工作中,Sparse Tranformer (Child et al., 2019)对全局自注意采用可扩展的逼近方法,以适用于图像。另外一种scale attention的方法是将它应用到不同尺寸的图像块上 (Weissenborn et al., 2019),在极端情况下仅在单独的坐标轴上 (Ho et al., 2019; Wang et al., 2020a)。许多特殊的注意力结构在视觉任务上展现了理想的结果,但是需要复杂的工程化工作实现高效的硬件加速。

最与我们的模型相似的是Cordonnier et al. (2020),在输入图像上提取2X2的图像块,在顶层应用完整的自注意力。这个模型预ViT十分相似,但是我们的工作进一步展示出了大规模预训练使得transformer可以与SOTA的CNNs达到相同甚至更好的表现。此外,, Cordonnier et al. (

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值