文章地址:https://openreview.net/pdf?id=YicbFdNTTy
1. Motivation
Transformer在NLP中被广泛使用,但是在CNN中的应用就很少。attention在CNN中的应用要么是和CNN结合使用,要么是替换CNN中的某些结构。文章提出直接在image patch上用pure transformer做分类效果也很好。
2. Method
网络结构如上图。原始Transformer的输入是1D sequence,这里将H*W大小的图像分成N个P*P大小的patch作为sequence,N=HW/P^2,并将每个patch拉成1D,接一个全连接映射成长度为D的patch embedding。文章在patch sequence前加了一个可学的[class] embedding学习类别信息,在输出的[class] embedding后接全连接层就可以实现分类。
跟Transformer一样,positional embedding会加在每个patch embedding上,由于作者试过2D-aware positional embedding没有明显效果提升,最后还是用了1D positional embedding。
Encoder由multi-headed self-attention (MSA) 和MLP block交替组成,其中MLP包含2层全连接,激活函数为