AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
https://openreview.net/pdf?id=YicbFdNTTy
background
Transformer已经成为了NLP领域的“the model of choice”, 主流做法(如BERT, GPT等)一般为在一个巨大的文本库上进行预训练,然后再在 一个较小的具体任务数据集上进行fine-tune。受益于Transformer 结构的计算效率及可扩展性,尽管目前模型及数据集尺寸不断增长,Transformer结构仍未到达性能上限。
limit
但它在CV领域的应用依然很受限,受其启发,有一些工作采用了例如self-attention等结构,与CNN相结合,或者在保持CNN架构的情况下取代某些组件,虽然也获得了一些精度上的提升,但这些特殊的attention结构,目前还无法在实际硬件部署中获得加速效果。因此在CV领域依然是ResNet类型的结构占据主流。
novel point
本文将图片进行切片,直接将patch序列输入到原始的Transformer中(Vision Transformer, ViT),在classification任务上取得了最优的结构,证明了CNN的结构并不是必须的。同时该工作还证明了ViT直接在ImageNet等数据集上进行训练效果不是太好,但经过在超大数据集(JFT-300M等)上进行预训练,再迁移到ImageNet等任务上时,可以获得极高的精度。